“我們團(tuán)隊(duì)目前最重要的工作就是復(fù)現(xiàn)Sora”,清華大學(xué)助理教授劍寒(化名)告訴「智車星球」,他的主要研究方向是機(jī)器人相關(guān)的計(jì)算機(jī)視覺,“不止我們,從2月16日(Sora發(fā)布當(dāng)天)開始,基本所有在這個(gè)賽道的人都在轉(zhuǎn)方向?!?/span>
關(guān)于原子彈,最有價(jià)值的情報(bào)就是它可以被造出來。
這句話再次被Sora印證。
不過在劍寒看來,這很正常,“科研界可能有100種前瞻方向,不可能都嘗試,OpenAI出來的效果這么好,大家開始學(xué)習(xí)他的做法,這沒有什么問題。就像世界上有這么多材料,嘗試到用鎢做燈絲呈現(xiàn)出了很好的效果,大家都會跟進(jìn)。”
除了技術(shù)端,資本端的跟進(jìn)也很迅速。
券商的朋友甚至等不及春節(jié)假期結(jié)束就找到我,詢問是否能介紹相關(guān)專家交流一下Sora對自動駕駛的影響。
這場關(guān)于“大模型+自動駕駛”能否產(chǎn)生新的化學(xué)反應(yīng)的討論,再次因?yàn)镺penAI帶來了新一輪的熱度。
1
—
新的仿真路線
此次Sora的推出,展示出了明顯優(yōu)于此前生成式視覺模型的成果,這也讓不少人對其在自動駕駛仿真領(lǐng)域的應(yīng)用產(chǎn)生了期待。
△知名連續(xù)創(chuàng)業(yè)者Gabor Cselle在測試關(guān)于美麗東京白雪皚皚的提示詞后,得出的結(jié)論是Sora在長鏡頭上表現(xiàn)得更好。
在51Sim CEO鮑世強(qiáng)看來,Sora 已經(jīng)展現(xiàn)出了多視角長時(shí)長下一致性較高的圖像,場景的真實(shí)度和細(xì)節(jié)也很好。
“其實(shí)從仿真的角度看,生成式視頻模型做的事和游戲引擎沒有本質(zhì)區(qū)別,只是一個(gè)是更可控的顯式的,一個(gè)是數(shù)據(jù)驅(qū)動的隱式的。游戲引擎的一個(gè)劣勢是如果要達(dá)到較強(qiáng)的真實(shí)感門檻較高,需要建模大量的高質(zhì)量資產(chǎn),優(yōu)點(diǎn)是可控制性和可編輯性較強(qiáng),世界完全受控。但 Sora的可編輯性以及可控性從目前的展示來看還不確認(rèn),我認(rèn)為挑戰(zhàn)還是比較大?!?鮑世強(qiáng)解釋道?!?/span>
目前,合成數(shù)據(jù)主要分為三個(gè)路線——物理仿真與圖形渲染路線、基于神經(jīng)輻射場(NeRF、3DGaussion 等)的場景重建路線以及基于世界模型的生成路線。
“基于世界模型的生成路線還處于發(fā)展的早期階段,與視頻創(chuàng)作領(lǐng)域不同,智駕場景落地確定性要求比較高,需要呈現(xiàn)出一致性和物理規(guī)律,如何可控的生成更多有價(jià)值的Corner Case 還有待深入探討,但后續(xù)發(fā)展空間是巨大的?!?鮑世強(qiáng)告訴[智車星球]。
目前,在這條垂直賽道上,國內(nèi)已經(jīng)有企業(yè)在做相關(guān)研究。
去年9月,極佳科技和清華大學(xué)的研究人員就推出了真實(shí)世界驅(qū)動的自動駕駛世界模型DriveDreamer。
△DriveDreamer 總體結(jié)構(gòu)框圖
據(jù)極佳科技CEO黃冠介紹,DriveDreamer使用了數(shù)十億圖像數(shù)據(jù)預(yù)訓(xùn)練的 Diffusion model 作為基礎(chǔ)模型,并利用百萬張自動駕駛場景圖像幀進(jìn)行模型訓(xùn)練,在此過程中引入了數(shù)十億可學(xué)習(xí)參數(shù)。
DriveDreamer能夠生成符合交通結(jié)構(gòu)化信息的視頻;可以根據(jù)文本描述改變生成視頻的天氣、時(shí)間等;可以根據(jù)輸入的駕駛動作生成不同的未來駕駛場景視頻。
“現(xiàn)在已經(jīng)有不少客戶基于DriveDreamer做數(shù)據(jù)生成、閉環(huán)仿真,Sora的出現(xiàn)也讓我們對這個(gè)方向更確定。當(dāng)然,目前還有準(zhǔn)確性、精細(xì)度等各方面的工程問題需要繼續(xù)提升?!?黃冠解釋道。
2
—
大模型“加速”自動駕駛
雖然文本視頻生成大模型完全進(jìn)入自動駕駛量產(chǎn)環(huán)節(jié)還有不少需要提升的地方,但大模型對于自動駕駛是否有加成,在業(yè)內(nèi)人士看來是一個(gè)需要做質(zhì)疑的討論。
“在過去一年多的時(shí)間內(nèi),這已經(jīng)是被廣泛驗(yàn)證的事情?!?a class="link2" target="_blank">長城汽車AI Lab負(fù)責(zé)人楊繼峰告訴「智車星球」,“大模型在自動駕駛領(lǐng)域,首先被證實(shí)效果的領(lǐng)域是數(shù)據(jù)重建,基于此誕生了新的場景生成在仿真領(lǐng)域的機(jī)會;Sora無疑規(guī)模更大也更通用,但是在自動駕駛領(lǐng)域的落地還需要進(jìn)一步探索,特別是針對空間和語音應(yīng)用。然后影響到的end to end,以及最近很熱的LLM-based driving agent類型的大模型算法架構(gòu)?!?/span>
簡單來說,就是通過增加推理能力來處理復(fù)雜場景從而提高性能,并通過極大地簡化模型開發(fā)來降低成本。
自動駕駛軟件的初創(chuàng)公司Ghost Autonomy(曾獲得OpenAI創(chuàng)業(yè)基金500萬美元投資,旨在將大規(guī)模、多模態(tài)的大語言模型引入自動駕駛領(lǐng)域)的模型工程師Prannay Khosla也在文章《One Model To Rule The Road?》中提到,大語言模型(LLMs,廣義上被稱為基礎(chǔ)模型)正在改變自動駕駛開發(fā)的多個(gè)環(huán)節(jié)。
首先是在理解及標(biāo)注數(shù)據(jù)層面,Prannay Khosla提到模型工程的核心是數(shù)據(jù)問題,即更好的數(shù)據(jù)產(chǎn)生更好的模型,“更好的數(shù)據(jù)”不僅僅是關(guān)于規(guī)模,還有完備性。訓(xùn)練集必須代表現(xiàn)實(shí)世界中可能遇到的每一個(gè)概念,例如,每一種車道標(biāo)記類型、每一種道路配置、每一種障礙物、建筑類型等。收集所有這些數(shù)據(jù)不僅昂貴,而且還需要進(jìn)行復(fù)雜的數(shù)據(jù)挖掘,從而標(biāo)注相關(guān)樣本以開發(fā)出完備的訓(xùn)練集。人類需要數(shù)十萬小時(shí)來開發(fā)這些訓(xùn)練集,但是它們?nèi)匀徊煌陚洹?/span>
而大型模型在解決這個(gè)問題上已被證明特別有用,能夠通過語言接口對復(fù)雜問題進(jìn)行zero-shot泛化(即解決從未在相關(guān)數(shù)據(jù)集上訓(xùn)練過的新任務(wù)),以更低的代價(jià)對數(shù)據(jù)集進(jìn)行整理和標(biāo)注。在這種應(yīng)用中,大型模型可能不用于最終產(chǎn)品的推理,但用于幫助訓(xùn)練最終交付的模型。
其次,大模型能提升可解釋性。早期的自動駕駛被龐大的代碼庫所主導(dǎo),導(dǎo)致在復(fù)雜場景中難以進(jìn)行調(diào)試。LLMs提供了一種與神經(jīng)網(wǎng)絡(luò)中的注意力層進(jìn)行交互的新途徑,使得在駕駛系統(tǒng)內(nèi)部實(shí)現(xiàn)提示和可解釋性成為可能。同樣,這里的大型模型是一個(gè)工具,幫助開發(fā)和解釋在運(yùn)行時(shí)部署的其他模型。
而隨著LLMs顯示出可以真正“理解世界”的潛力,Prannay Khosla認(rèn)為這種新的理解水平可以擴(kuò)展到駕駛?cè)蝿?wù),使模型無需顯式訓(xùn)練(Explicit Training),就能安全自然地駕馭復(fù)雜場景,這為解決“長尾問題”提供了新的路徑。LLMs還顯示出在決策中使用大量上下文信息的能力。
最后,Prannay Khosla也提到了基于action的生成式視覺模型,例如GANs和Diffusion models,可以在線創(chuàng)建逼真的駕駛場景,可以用于有效的仿真。
但同樣,Prannay Khosla也提到尚不完全清楚大型視覺模型是否能生成有意思的Corner Case場景。像素級仿真渲染對于構(gòu)建規(guī)劃器和測試道路預(yù)測模型非常有用,但對于測試和制造自動駕駛汽車所需的規(guī)模來說,計(jì)算效率可能不高。
3
—
自動駕駛終局在哪?
目前,視頻生成方法主要分為兩類:基于Transformer和基于擴(kuò)散模型。
前者源于大型語言模型方案,通常是采用對下一個(gè)Token的自回歸預(yù)測或?qū)asked Token的并行解碼來生成視頻。
利用Transformer進(jìn)行Token預(yù)測可以高效學(xué)習(xí)到視頻信號的動態(tài)信息,并可以復(fù)用大語言模型領(lǐng)域的經(jīng)驗(yàn),因此,基于Transformer的方案是學(xué)習(xí)通用世界模型的一種有效途徑。
擴(kuò)散模型是近兩年來視頻生成領(lǐng)域的研究熱點(diǎn),是“文生圖”的代表,相關(guān)研究成果也有不少。比如在2D擴(kuò)散模型潛在空間的基礎(chǔ)上引入時(shí)間維度,并使用視頻數(shù)據(jù)進(jìn)行微調(diào),有效地將圖像生成器轉(zhuǎn)變?yōu)橐曨l生成器,實(shí)現(xiàn)高分辨率視頻合成;有基于預(yù)訓(xùn)練的2D擴(kuò)散模型構(gòu)建了級聯(lián)視頻擴(kuò)散模型;也有基于Transformer的擴(kuò)散模型改進(jìn)了視頻生成。
不過,基于擴(kuò)散模型的方法難以在單一模型內(nèi)整合多種模態(tài)。此外,基于擴(kuò)散模型的方案難以拓展到更大參數(shù),因此很難學(xué)習(xí)到通用世界的變化和運(yùn)動規(guī)律。
Sora則是結(jié)合了Transformer 和 Diffusion 兩個(gè)模型,在過去DALL.E和GPT的研究基礎(chǔ)上,采用了DALL.E 3中的重述技術(shù)。因此能更好遵循用戶的文本描述,并且有極強(qiáng)的擴(kuò)展性。
再簡單些,OpenAI用GPT的能力做視頻文本對齊,通過將多個(gè)高分辨率視頻素材進(jìn)行降維處理,然后密集訓(xùn)練,最后就是我們熟悉的大力出奇跡。
陽光底下無新鮮事,雖然沒有網(wǎng)絡(luò)大小、用了哪些數(shù)據(jù)、具體怎么訓(xùn)練等細(xì)節(jié),但從OpenAI公布的報(bào)告中,并沒有“武功秘籍”般的存在,思路和方法都是大家熟悉的東西。
但AI熱與明星公司OpenAI的結(jié)合,再加上關(guān)于技術(shù)本身之外的討論,讓Sora的熱度來到了極高的位置,也引出了大家對自動駕駛終局的討論。
2月18日,馬斯克在科技主播 @Dr.KnowItAll 一條主題為“OpenAI 的重磅炸彈證實(shí)了特斯拉的理論”的視頻下留言,表示“特斯拉已經(jīng)能夠用精確物理原理制作真實(shí)世界視頻大約一年了”。
隨后馬斯克在 X 上轉(zhuǎn)發(fā)了一條 2023 年的視頻,內(nèi)容是特斯拉自動駕駛總監(jiān) Ashok Elluswamy 向外界介紹特斯拉如何用 AI 模擬真實(shí)世界駕駛。
訓(xùn)練 AI 理解和生成一個(gè)真實(shí)的場景或世界,是特斯拉與Sora一致的訓(xùn)練思路。
過去十幾年,雖然技術(shù)在不斷迭代,但自動駕駛的本質(zhì)依然是通過海量數(shù)據(jù)教會系統(tǒng)開車,即便目前在不少環(huán)節(jié)已經(jīng)有大模型加入,也只是加速了過程,并沒有解決自動駕駛研發(fā)過程中遇見的問題。
“但是自動駕駛從世界感知進(jìn)入到通用認(rèn)知以后,自動駕駛的本質(zhì)很可能就會發(fā)生變化,那就是Al Agent——LLM+Memory+Tool+Planning。自動駕駛就變成了怎么教一個(gè)通用智慧體開車的問題,通過大模型的預(yù)訓(xùn)練去學(xué)會推理、記憶等能力和道路駕駛等通用知識,通過SFT去強(qiáng)化場景駕駛行為,通過RL把數(shù)據(jù)閉環(huán)變成獎勵模型。這跟當(dāng)前依賴海量數(shù)據(jù)和Corner Case的思路完全不同?!?楊繼峰說道。
“(自動駕駛)最終可能就是一個(gè)語言模型加世界模型?!秉S冠也提出了類似觀點(diǎn)。
可以說,對于自動駕駛,Sora這次的小試牛刀,不僅展示出了相關(guān)技術(shù)在自動駕駛仿真領(lǐng)域的應(yīng)用潛力,更是讓行業(yè)看到大模型對真實(shí)世界有了理解和模擬之后,引發(fā)了對于自動駕駛發(fā)展方向的思考。
這場AI熱給自動駕駛帶來的新課題,已然擺在眼前。
來源:第一電動網(wǎng)
作者:智車星球
本文地址:http://www.vlxuusu.cn/kol/220096
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。