8月30日的直播我們邀請(qǐng)了51Sim CEO鮑世強(qiáng)以及清華AIR助理教授趙昊,共同討論當(dāng)前自動(dòng)駕駛仿真難點(diǎn)以及新的方向。
嘉賓精彩發(fā)言及觀點(diǎn):
Graphics 改變了整個(gè)動(dòng)畫和游戲行業(yè),但它不適合做重建;NeRF要直接改變所有的渲染框架,還需要有足夠強(qiáng)的商業(yè)動(dòng)因。
無論是規(guī)控仿真還是感知仿真,核心挑戰(zhàn)之一是解決真實(shí)數(shù)據(jù)太死和仿真數(shù)據(jù)太假這兩個(gè)問題。
感知仿真關(guān)注的重點(diǎn)是在路面、路上和周圍的交通參與者、以及馬路上的一些標(biāo)識(shí)、道路標(biāo)牌等這些要素的真實(shí)性,道路旁邊一些建筑是不是具有真實(shí)性,其實(shí)不那么重要。
我們需要保證采集回來的數(shù)據(jù)本身價(jià)值比較高,否則可能存儲(chǔ)數(shù)據(jù)的成本會(huì)超過數(shù)據(jù)本身的價(jià)值。
越往后發(fā)展,仿真越不是數(shù)據(jù)的生成器,而是一個(gè)數(shù)據(jù)倍增器的作用。
測(cè)試主要兩個(gè)目標(biāo),一個(gè)是發(fā)現(xiàn)問題,另外一個(gè)是證明沒有問題。
AIGC核心目的不是為了生成新的數(shù)據(jù),而是為了幫助用戶更快捷地通過自然語言的方式提高場(chǎng)景制作的效率。
以下為直播聊天實(shí)錄,有所刪減,完整直播視頻請(qǐng)查看「智車星球」視頻號(hào):
1
—
NeRF帶來的新方向
智車星球:傳統(tǒng)的渲染框架和剛剛說到神經(jīng)渲染框架有什么核心的區(qū)別?
趙昊:從CV界的視角來看,Modeling(建模)就是重建物理世界。這個(gè)世界上每個(gè)真實(shí)的物體都對(duì)應(yīng)一個(gè)幾何特征,物體本身會(huì)有一些表面的材質(zhì)。這個(gè)世界上有了光,我們有一個(gè)成像模型,通過這些我們就拿到了一張圖片,然后就要去解決 Inverse problem (逆問題)。這件事情從計(jì)算機(jī)視覺誕生的那一刻起,就是一個(gè)圣杯。
早期Graphics(圖形學(xué))有很多種方式去渲染,最后打贏的一派是適合做動(dòng)畫的和做游戲的,但是這一件東西就是這一套 rendering pipeline (渲染流水線),可能只適合做動(dòng)畫和游戲,但不適合做重建。
所以在2020年的時(shí)候,谷歌的Graphics專家Jon Barron重新把 volume rendering(體積渲染)給了搬出來,這就直接把Inverse rendering(反向渲染)用一種全新的思路去解決了。
而NeRF有一個(gè)比較成功的點(diǎn)在于用一個(gè)MLP就讓大家都明白它是什么意思,所以我覺得Jon Barron的思想比較深刻,他把最后的結(jié)果以大道至簡(jiǎn)的形式呈現(xiàn)出來,并觸發(fā)了這一場(chǎng)革命。當(dāng)然從純學(xué)術(shù)史的角度來講,他一開始并不是為了重建,他一開始是為了做Novel view synthesis(新視角合成)。NeRF的volume rendering這個(gè)范式的改變,直接打開了新思路,現(xiàn)在NeRF的formation已經(jīng)各種各樣了。
總的來說,圖形學(xué)改變了整個(gè)動(dòng)畫和游戲行業(yè),但它不適合做重建。然后inverse rendering被NeRF又給救了回來,進(jìn)而改變了我們?nèi)ニ伎既绾沃亟ㄎ锢硎澜绲姆绞健?/span>但如果NeRF要直接改變所有的渲染框架,改變整個(gè)電影和游戲工業(yè)界,甚至改變GPU的架構(gòu)為它適應(yīng),我覺得還是比較遙遠(yuǎn)的事情,這更多是一個(gè)商業(yè)行為,要看后面有沒有足夠的商業(yè)動(dòng)因。但我覺得大家對(duì)于圖像真實(shí)性的不懈追求肯定一直有,我覺得是慢慢朝著那個(gè)方向改變。
智車星球:自動(dòng)駕駛仿真主要是感知仿真與規(guī)控仿真,從大框架看兩者都包括了仿真場(chǎng)景的建立、仿真執(zhí)行以及仿真評(píng)價(jià),但在具體操作上,二者有哪些區(qū)別?核心的挑戰(zhàn)是什么?
鮑世強(qiáng):如果大家對(duì)測(cè)試工作比較了解的話,就知道這個(gè)測(cè)試包括單元測(cè)試、模塊測(cè)試、集成測(cè)試等,是一個(gè)從小到大的過程,在不同的開發(fā)環(huán)節(jié),會(huì)產(chǎn)生不同級(jí)別的一些測(cè)試。
對(duì)于智駕的仿真測(cè)試就涉及到感知系統(tǒng)、定位、規(guī)控系統(tǒng)的測(cè)試,實(shí)際執(zhí)行上又有比如說軟件層面的測(cè)試,一些硬件在環(huán)方面的測(cè)試。
所以大多數(shù)情況不能泛泛來講,要看我們到底要測(cè)什么,被測(cè)物的環(huán)節(jié)越小越集中,測(cè)試的針對(duì)性越強(qiáng),如果發(fā)現(xiàn)了一些問題,指向性也非常明顯。
感知系統(tǒng)單獨(dú)的測(cè)試,一般通過開環(huán)、回灌的這樣一些方式可能居多,其實(shí)某種程度上來講它其實(shí)很難算仿真,因?yàn)橛谜鎸?shí)數(shù)據(jù)更多一點(diǎn),當(dāng)然也可以用仿真生成的虛擬數(shù)據(jù)集去做回灌,這也是未來的一個(gè)趨勢(shì)。
目前規(guī)控測(cè)試更成熟一點(diǎn),大家對(duì)它的確定性并沒有太大的異議。
感知的仿真,我覺得其實(shí)目前還在于比較偏前瞻的領(lǐng)域,現(xiàn)在也有兩種方法,一種基于傳統(tǒng)圖形的方法,另外是基于神經(jīng)渲染NeRF的方式。
兩者的挑戰(zhàn)在于數(shù)據(jù),無論是規(guī)控仿真還是感知仿真,從我的角度,可以在一個(gè)框架下來理解,可以看作是一個(gè)軸的兩端,一端完全是真實(shí)數(shù)據(jù),一端完全是虛擬數(shù)據(jù),然后他們各有優(yōu)缺點(diǎn),下一步工作是去平衡兩端。
真實(shí)數(shù)據(jù)它是歷史上某一些時(shí)刻的記錄,是一個(gè)比較死的數(shù)據(jù),怎么讓它具備一定的靈活性是一個(gè)核心挑戰(zhàn)。而仿真數(shù)據(jù)是一個(gè)人造的東西,有的時(shí)候可能跟真實(shí)數(shù)據(jù)有一定的差異,所以我覺得核心挑戰(zhàn)是解決真實(shí)數(shù)據(jù)太死和仿真數(shù)據(jù)太假這兩個(gè)問題。
那么現(xiàn)在的一個(gè)趨勢(shì)我覺得是互相滲透的方式,比如把真實(shí)數(shù)據(jù)的某一部分進(jìn)行邏輯化和智能化,以解決真實(shí)數(shù)據(jù)太死的問題。然后依托大量真實(shí)數(shù)據(jù)去做仿真數(shù)據(jù)的合成,解決仿真數(shù)據(jù)太假的問題,我覺得這是兩個(gè)核心的方向。
智車星球:您曾經(jīng)提過關(guān)于感知用仿真場(chǎng)景的構(gòu)建,下一步方向就是程序化生成結(jié)合NeRF重建,這個(gè)方向它有什么樣的好處,又有哪些短板?
鮑世強(qiáng):可能對(duì)現(xiàn)代圖形沒有那么了解的人一般會(huì)質(zhì)疑真實(shí)感,但真實(shí)感首先并不是不可逾越的,比如我們做一個(gè)電影特效,其實(shí)可以達(dá)到非常真實(shí)的效果。但這有另外的一個(gè)問題,成本的問題,我們不可能不考慮成本去談?wù)鎸?shí)感。做感知仿真測(cè)試需要生成大量的數(shù)據(jù),不可能每一個(gè)東西都做得和電影一樣,否則成本上是完全不能承受的。所以會(huì)考慮采用一些新的技術(shù),比如說用一些程序化生成的技術(shù)。
NeRF這個(gè)方案我認(rèn)為有非常強(qiáng)的顛覆性,甚至對(duì)圖形領(lǐng)域都會(huì)產(chǎn)生沖擊,它不僅會(huì)對(duì)感知仿真領(lǐng)域帶來一些新的思路和方案,對(duì)于傳統(tǒng)的基于圖形的體系架構(gòu)也會(huì)產(chǎn)生一些影響。我認(rèn)為這個(gè)方向非常好,他有一個(gè)非常長(zhǎng)的長(zhǎng)板式真實(shí)性,潛力非常大,但是目前應(yīng)該還是處于相對(duì)比較早期的階段,還需要解決很多的問題。比如性能、動(dòng)靜態(tài)場(chǎng)景的解耦、可編輯性以及生成泛化性等。我覺得NeRF的長(zhǎng)板和短板正好跟傳統(tǒng)圖形是比較互補(bǔ)的,所以未來的方向可能是兩者結(jié)合的一個(gè)方案。
說到真實(shí)性,因?yàn)槲覀兪亲鲋邱{感知仿真這個(gè)專門的應(yīng)用落地場(chǎng)景,關(guān)注的重點(diǎn)是在路面、路上和周圍的交通參與者、以及馬路上的一些標(biāo)識(shí)、道路標(biāo)牌等這些要素的真實(shí)性,道路旁邊一些建筑是不是具有真實(shí)性,其實(shí)不那么重要。真正核心還是圍繞路面交通這一特別具體的場(chǎng)景,能否重現(xiàn)一些車道線的涂改變化和破損、路面上出現(xiàn)的一些特種車輛、摩托車?yán)恍┤?,各種各樣長(zhǎng)尾的小概率場(chǎng)景,光照條件,傳感器的一些工況,比如濺水,臟污,這種特點(diǎn)能不能針對(duì)這些具體的場(chǎng)景,發(fā)揮虛擬仿真技術(shù)的放大作用,通過合成數(shù)據(jù)的方式補(bǔ)全充一些訓(xùn)練數(shù)據(jù),提升感知系統(tǒng)面對(duì)這些長(zhǎng)尾場(chǎng)景的性能。
這里面有幾個(gè)關(guān)鍵的要素,一個(gè)是場(chǎng)景的真實(shí)感,一個(gè)是場(chǎng)景的多樣性,一個(gè)是傳感器模型的精確性,一個(gè)是成本。如果你要讓我排第一名,我認(rèn)為應(yīng)該是場(chǎng)景的多樣性。傳感器的精度和場(chǎng)景真實(shí)度要求是很高的,但我們可以設(shè)置一個(gè)較高的門檻,過了門檻再往上提升,它的性價(jià)比就會(huì)下降。
這時(shí)候我們要解決的重點(diǎn)問題就轉(zhuǎn)移到怎么樣通過盡量低的成本去解決場(chǎng)景多樣性的問題。NeRF在真實(shí)性方面有很大的幫助,但是多樣性的方面其實(shí)帶來的改變不大,一些生成式AI的方向會(huì)更有幫助。
智車星球:激光雷達(dá)基于物理方式的建模和基于真值加噪聲的建模方式,哪種更適合算法去做測(cè)試訓(xùn)練。
鮑世強(qiáng):我們的方式還是采用實(shí)采,比如實(shí)際的某種品牌的激光雷達(dá),它的數(shù)據(jù)采過來,看點(diǎn)云是什么樣的,包括它的掃描的方式、強(qiáng)度的映射等。我們還是把激光雷達(dá)當(dāng)做一個(gè)黑盒的方式來做,按物理的方式做也行,但實(shí)時(shí)性很難。
對(duì)于數(shù)據(jù)集來講,我還是秉持這樣的一個(gè)觀點(diǎn),目前還是在精度達(dá)到一個(gè)較高水平的基礎(chǔ)上以最便宜的方式獲得最高的多樣性,實(shí)際上是目前要解決的核心的問題。其他深入的東西也許不要糾結(jié)得過于細(xì)節(jié),這些可能對(duì)實(shí)際的結(jié)果產(chǎn)生的影響并沒有你想象的那么大。
2
—
如何提升數(shù)據(jù)閉環(huán)效率
智車星球:現(xiàn)在大家都在談數(shù)據(jù)閉環(huán),51Sim其實(shí)也算是數(shù)據(jù)的消費(fèi)者,你們是如何定義數(shù)據(jù)閉環(huán)的?數(shù)據(jù)驅(qū)動(dòng)閉環(huán)仿真的挑戰(zhàn)有哪些?
鮑世強(qiáng):數(shù)據(jù)閉環(huán)我覺得概念非常大,它涉及到的流程非常長(zhǎng),首先是數(shù)據(jù)的采集,后邊當(dāng)然有很多合規(guī)性的問題,要進(jìn)行脫密脫敏,
然后需要說清楚數(shù)據(jù)本身是什么數(shù)據(jù),有一些是感知用的,有一些結(jié)構(gòu)化的規(guī)控?cái)?shù)據(jù),有一些是給定位用的。然后就是數(shù)據(jù)怎么樣去采集和利用。
目前我們碰到的最核心的問題是數(shù)據(jù)的閉環(huán)效率其實(shí)并沒有那么高,絕大多數(shù)的數(shù)據(jù)實(shí)際上沒有任何價(jià)值,然后就變成了怎樣把有價(jià)值的數(shù)據(jù)挑出來并有效利用的問題。這里有很多的問題要去解決,比如說數(shù)據(jù)采集,研發(fā)階段可以全量去采集,量產(chǎn)之后可能要通過觸發(fā)式的方式進(jìn)行采集。我們需要保證采集回來的數(shù)據(jù)本身價(jià)值比較高,否則后期要處理的時(shí)候,如果對(duì)數(shù)據(jù)進(jìn)行挑選的效率和機(jī)制不健全,可能存儲(chǔ)這些數(shù)據(jù)的成本會(huì)超過數(shù)據(jù)本身的價(jià)值,這個(gè)就比較悲劇了。
而且,隨著大家智駕水平的不斷提高,有價(jià)值的數(shù)據(jù)比例越低。這就意味著必須提升數(shù)據(jù)的采集、挖掘、有效利用的能力以及數(shù)據(jù)的識(shí)別能力。比如說新的算法可能接口改了或者中間件發(fā)生了變化,怎么樣利用舊的數(shù)據(jù),提升數(shù)據(jù)靈活性和利用率,我覺得這是一個(gè)長(zhǎng)期話題。
比如還是拿NeRF來舉例,我覺得NeRF某種程度上提升了感知數(shù)據(jù)集采和利用的靈活性,因?yàn)樗纫粠粠膱D片靈活性高,我可能換一些視角和傳感器配置,舊的數(shù)據(jù)還是能用。
智車星球:現(xiàn)在的量產(chǎn)的智能駕駛車在路上跑的越來越多了,車企能采集到的數(shù)據(jù)也越來越多,對(duì)于仿真來說。是能利用的數(shù)據(jù)變多了嗎?
鮑世強(qiáng):能利用數(shù)據(jù)是變多了,但仿真實(shí)際上是整個(gè)數(shù)據(jù)閉環(huán)的下游,我們現(xiàn)在的問題不是數(shù)據(jù)太少,而是數(shù)據(jù)太多的問題。
首先仿真你可以理解是一個(gè)數(shù)據(jù)生成器,仿真原本就是做一些場(chǎng)景做一些數(shù)據(jù)。但越往后發(fā)展,它越不是數(shù)據(jù)的生成器,它其實(shí)起到的是一個(gè)數(shù)據(jù)倍增器,或者叫放大器的作用。
比如說我們從真實(shí)世界采集到的corner case,有針對(duì)感知的,也有針對(duì)規(guī)控的,然后仿真怎樣從這些數(shù)據(jù)出發(fā)去構(gòu)建出更多類似的case,是仿真往后發(fā)展要解決的根本問題。
仿真本質(zhì)上我覺得起到兩個(gè)作用,一個(gè)叫保下限,就是當(dāng)你迭代算法時(shí),怎么保證改的東西起到正面作用而不是搞壞了其他地方,需要有測(cè)試;另一個(gè)就是剛才我說的放大器作用,我們管它叫提上限,當(dāng)碰到了一些case,怎樣在仿真的環(huán)境里重建。當(dāng)然,我們可以先用真實(shí)數(shù)據(jù)去回放重現(xiàn),然后在此基礎(chǔ)之上看能不能產(chǎn)生一些額外的變化,讓整個(gè)修改做一些局部的覆蓋性,然后更具有代表性,我覺得這是仿真往后發(fā)展的一個(gè)核心思路。
智車星球:合成的數(shù)據(jù)它對(duì)比這種真實(shí)采集來的數(shù)據(jù)來說,它的價(jià)值有哪些?
鮑世強(qiáng):合成數(shù)據(jù)現(xiàn)在討論得很多,但是我覺得憑空合成3D場(chǎng)景這件事還是挺難的。我理解就兩種方式,一種是自然語言生成圖像,然后通過NeRF 把3D的場(chǎng)景創(chuàng)建出來,但這個(gè)圖像怎么保證多視角的連續(xù)性是一個(gè)問題,另外一種方式是直接拿3D模型去做訓(xùn)練。
3D的AIGC方面我認(rèn)為目前還很不成熟,難度也比較大,但是另外的一個(gè)角度其實(shí)也有人在探索,因?yàn)槲覀冏罱K的目的是給比如說智駕的感知算法去進(jìn)行訓(xùn)練或者是測(cè)試,那么是否3D場(chǎng)景是必須的?這其實(shí)也是可以探討的,因?yàn)槟愕哪康氖峭瑫r(shí)生成多傳感器的數(shù)據(jù)來完成訓(xùn)練和測(cè)試,只是要保障多傳感器數(shù)據(jù)的一致性,還有一些物理的規(guī)律,也可以不構(gòu)建3D場(chǎng)景,完全通過圖像合成的方式去做。
3
—
AIGC助力場(chǎng)景描述
智車星球:現(xiàn)在很多車企也是在做城市NOA,跟之前高速場(chǎng)景下的仿真相比,你們遇見過哪些不同的問題?
鮑世強(qiáng):既有的規(guī)控仿真體系,一個(gè)是基于數(shù)據(jù)回灌的logSim的體系,一個(gè)是基于WordSim的體系,一般是基于OpenX這樣的一些場(chǎng)景描述語言。
但是進(jìn)入到這個(gè)城市NOA后,場(chǎng)景已經(jīng)非常難以描述,然后純數(shù)據(jù)回放有很多適配性的問題,我覺得整體難度還是要大很多。
OpenX這套體系,我覺得是一套具體場(chǎng)景邏輯場(chǎng)景的體系,對(duì)于高速場(chǎng)景來講可能是比較完備的。
從測(cè)試的角度來講,測(cè)試我覺得有兩個(gè)目標(biāo),一個(gè)目標(biāo)是發(fā)現(xiàn)問題,另外一個(gè)目標(biāo)其實(shí)更高級(jí),證明沒有問題,這是一個(gè)非常難的目標(biāo)。通過剛才那套體系,試圖在類似于高速這樣的場(chǎng)景達(dá)到這樣的目標(biāo),當(dāng)然需要非常多的數(shù)據(jù)。但如果在城市的場(chǎng)景,你會(huì)發(fā)現(xiàn)描述場(chǎng)景就變得非常的困難,因?yàn)閰⑴c交互的車非常多。寫出這樣的場(chǎng)景本身對(duì)于一個(gè)場(chǎng)景制作的人員來講,是一個(gè)技術(shù)含量非常高的工作,我們需要有新方法新思路
智車星球:AIGC對(duì)于場(chǎng)景描述是否是一個(gè)助力?
鮑世強(qiáng):當(dāng)然是一個(gè)幫助,OpenX動(dòng)態(tài)場(chǎng)景有1.0的體系,有2.0的體系,2.0其實(shí)已經(jīng)是一種類似于領(lǐng)域語言的方式,交互非常復(fù)雜,對(duì)于用戶來講,門檻其實(shí)非常高。面向更復(fù)雜的場(chǎng)景時(shí),交互編輯效率也比較差。
目前GPT的應(yīng)用很廣泛,從自然語言變成這個(gè)領(lǐng)域相關(guān)語言的一些工作,GPT是可以做到的,當(dāng)然可能需要一些比如上下文的保證和輸入,怎么樣和交互式場(chǎng)景的編輯去做結(jié)合,這是我們?cè)谧鲆粋€(gè)方向。但是核心目的不是為了生成新的數(shù)據(jù),而是幫助用戶更快捷地通過自然語言的方式提高場(chǎng)景制作的效率。
智車星球:OpenX系列是不是不太適合于去做對(duì)抗場(chǎng)景的自動(dòng)生成?
鮑世強(qiáng):我覺得這是兩個(gè)思路,一個(gè)從測(cè)試的角度來講,我們希望兩次測(cè)試跑出來的結(jié)果是完全一致,否則這個(gè)測(cè)試就沒有確定性,從測(cè)試角度來講這其實(shí)是不可以接受的。但是另外一個(gè)角度我們可能會(huì)需要比如說有多智能體交互的智能的行為,可以和你形成一些博弈,這是另外的一個(gè)case。顯然Open體系不太適合做這樣的一個(gè)case。
智車星球:如何去評(píng)價(jià)真實(shí)?我們?nèi)搜劭吹降恼鎸?shí)和算法看到的真實(shí)是否是一致的?
鮑世強(qiáng):目前這個(gè)東西從理論上證明我認(rèn)為難度還是非常大的,我們現(xiàn)在更多的是從實(shí)踐的方向,比如說有多少比例的虛擬數(shù)據(jù)混合進(jìn)來,會(huì)對(duì)實(shí)際的性能產(chǎn)生多大的影響,或者我拿虛擬數(shù)據(jù)訓(xùn)練一個(gè)模型,然后去識(shí)別一些真實(shí)的數(shù)據(jù)到大概的性能會(huì)有多少。
同時(shí)我們也在做一些交叉的驗(yàn)證,比如說在測(cè)試場(chǎng)的純物理環(huán)境下,實(shí)際構(gòu)建一個(gè)場(chǎng)景去觸發(fā),然后在虛擬的環(huán)境中1:1還原,去對(duì)比結(jié)果。
智車星球:現(xiàn)在的數(shù)據(jù)生成、訓(xùn)練、測(cè)試整個(gè)閉環(huán)有沒有可能直接端到端來做?
鮑世強(qiáng):端到端仿真我們內(nèi)部叫大閉環(huán)仿真,是可以實(shí)現(xiàn)的,但是整個(gè)流程比較長(zhǎng),非常有挑戰(zhàn)性。
現(xiàn)在的車堆料其實(shí)比較嚴(yán)重,動(dòng)不動(dòng)就是11個(gè)攝像頭,如果做端到端的測(cè)試,相當(dāng)于要生成11個(gè)攝像頭的原始數(shù)據(jù),可能還有雷達(dá),對(duì)算力的需求是比較大的。這需要弄一個(gè)很大的臺(tái)架,如果要做規(guī)?;拈]環(huán)仿真,我認(rèn)為整體投入是比較大的。
來源:第一電動(dòng)網(wǎng)
作者:智車星球
本文地址:http://www.vlxuusu.cn/kol/210279
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。