講述 | 郭繼舜
編輯 | HiEV
編者注:
本文是HiEV出品的系列直播「硬核拆解BEV」第一期,均勝電子副總裁郭繼舜分享的內(nèi)容梳理。
BEV全稱是Bird's Eye View(鳥瞰視角),實(shí)現(xiàn)方法是把原本攝像頭2D的視角通過算法校正和改變,形成基于上帝視角的俯視圖。
從本質(zhì)上來說,BEV算法就是 將傳感器輸入轉(zhuǎn)換到統(tǒng)一的俯視角度下進(jìn)行處理。
這里的傳感器不只有攝像頭,還有4D毫米波雷達(dá)、激光雷達(dá)等,算法把它們的信號融合,最終形成一個(gè)上帝視角。在計(jì)算機(jī)里面處理這部分信息時(shí),也會(huì)基于上帝視角去進(jìn)行規(guī)劃決策和控制。
首先是城市NOA的落地。
高速場景下L2++場景相對單一,感知任務(wù)不重,但控制方面很難,因?yàn)楦咚俟芬话闼俣仍?0-120公里/小時(shí),所以在高速場景下,如何把規(guī)劃決策和控制做好,保證它不會(huì)在邊界狀態(tài)下失穩(wěn)就顯得尤為重要。
但是在城市道路上,它的 難點(diǎn)就在于感知,因?yàn)橛蟹浅6嗟慕煌▍⑴c者或者非常復(fù)雜的路況。
目前主要的城市NOA玩家:
原來做L4的科技公司:從Robotaxi上遷移感知,調(diào)整傳感器;
傳統(tǒng)Tier1或者OEM:把感知做好,處理好復(fù)雜場景。
在實(shí)現(xiàn)L2++功能時(shí),大多希望360度范圍內(nèi)能夠做到精確感知,需要做到傳感器融合,難度加大,復(fù)雜度增強(qiáng),因此BEV愈發(fā)重要。
安信證券報(bào)告顯示,蔚小理等車廠通過OTA升級釋放城市NGP或者NOA功能的時(shí)間節(jié)點(diǎn)都在2022年到2023年之間。
所以這就是為什么國內(nèi)高速NOA對BEV的使用并不多,但隨著2021年特斯拉提出BEV算法,以及與transformer結(jié)合后,國內(nèi)也開始在城市道路上去使用BEV算法解決復(fù)雜和不確定的城市道路場景。
現(xiàn)階段量產(chǎn)里廣泛使用的后融合:
不同傳感器各自算各的,把感知和分類的結(jié)果做投票,這個(gè)投票是根據(jù)場景的不同計(jì)算權(quán)重的;
算法由不同供應(yīng)商提供,不需要域上的大算力,但每個(gè)傳感器都可能丟失重要信息,比如高速公路上的破碎輪胎;
在行泊一體之前,大多數(shù)的行車、泊車是兩套完全不同的傳感器。
但是不同的后融合方案存在各種缺點(diǎn),因此大家開始想辦法就開始去做 前融合:
前融合的就是嘗試把攝像頭上的像素,激光雷達(dá)的點(diǎn)云,毫米波雷達(dá)擬合過的一些特征信息(現(xiàn)在如果用4D毫米就是4D毫米波的點(diǎn)云,它已經(jīng)能夠成像了),把這些信息去做原始數(shù)據(jù)的時(shí)空同步,然后再結(jié)合其他的信息,最后得到了一個(gè)多維度的Raw Data,再去做分類識別跟蹤等等。
但是這個(gè)過程中像素級的前融合非常難做,原因在于:
這么多點(diǎn)云與像素去做匹配的時(shí)候,時(shí)空同步難度很大;
算力消耗非常大;
不同的傳感器硬件系統(tǒng)時(shí)間是不一樣的,很難知道激光雷達(dá)的某一幀到底實(shí)際嚴(yán)格意義上對應(yīng)了攝像頭或者毫米波雷達(dá)的哪一幀,而且存在運(yùn)動(dòng)補(bǔ)償?shù)恼`差。
即使做了非常詳細(xì)的標(biāo)定,一旦換硬件或者換車型很多流程又要重新來一遍,所以我們在BEV里面開始去嘗試把這個(gè)問題得到系統(tǒng)性的解決,那到底是怎么解決的呢?
首先在BEV算法里面是用特征級的融合,然后再把它映射到統(tǒng)一的坐標(biāo)下,即BEV的坐標(biāo)體系里面。
然后去做融合,融合之后再進(jìn)行訓(xùn)練學(xué)習(xí)分類,最終后融合的特征可以保留,那么同時(shí)它又不像是前融合階段要求高精度和高算力,所以它是一個(gè)相對折中的一種方法。
這個(gè)方法我們叫 特征級的前融合,或者把它叫做 中融合也可以。
特斯拉AI Day曾展示一張圖:不同的攝像頭都對于這個(gè)特征做識別,后融合方面就是先把它做分割之后再去融合,最終得到的結(jié)果是基于BEV做特征級融合的效果,遠(yuǎn)遠(yuǎn)好于在BEV空間里面做的后融合,所以說特征級的融合能更好地解決后融合信息丟失過多而造成的誤差,同時(shí)也避免了像素級的融合,算力的災(zāi)難和復(fù)雜度的災(zāi)難。
BEV不是一個(gè)新的概念,深度學(xué)習(xí)賦予它活力,使用深度學(xué)習(xí)算法實(shí)現(xiàn)了從2D到BEV視角的轉(zhuǎn)換。
BEV除了加了深度學(xué)習(xí)之外,在2021年的時(shí)候,特斯拉還提出了大模型 transformer再加BEV的模型。
transformer作用是什么?就是給這些按照時(shí)間序列進(jìn)入的特征和信息賦予權(quán)重。transformer最大的功勞就是,對于 特征給予或異構(gòu)的特征,比如說同構(gòu)的特征給予了注意力的新參數(shù)。
基于transformer的BEV算法優(yōu)勢:
增加了系統(tǒng)的跟蹤和推斷的能力;
加了異構(gòu)傳感器的融合和算法泛化能力;
實(shí)現(xiàn)了不同視角下在BEV中進(jìn)行統(tǒng)一的表達(dá);
對于端到端的優(yōu)化,模塊更簡潔了,任務(wù)的可擴(kuò)展性也更強(qiáng)了。
擁有構(gòu)建語義地圖的能力,即是方案可以擺脫高精地圖。
在2021年特斯拉在提出 BEV之前,我曾經(jīng)是高精地圖堅(jiān)定的支持者,但最后發(fā)現(xiàn)高精地圖的更新成本等因素導(dǎo)致它的局限性,尤其是如果要做自動(dòng)駕駛方案出海,還要涉及不同國家的高精地圖。
之后,各大車廠陸續(xù)開始通過 BEV算法和得到的信息構(gòu)建語義地圖,非常典型的應(yīng)用就是有些車廠提出來的 高頻路線的城市道路NOA。
特斯拉通過BEV算法加transformer去構(gòu)建一個(gè)城市道路下高級別智能駕駛所需的語義地圖,但是這個(gè)過程的實(shí)現(xiàn)需要結(jié)構(gòu)化訓(xùn)練數(shù)據(jù)來源,要基于BEV的模型去做數(shù)據(jù)的標(biāo)注、分割、分類等等。
那么要標(biāo)多少數(shù)據(jù)?
毫末智行CEO顧維灝預(yù)測,BEV的模型 大概要標(biāo)注1億公里的數(shù)據(jù),所以這個(gè)量是非常大的。因此特斯拉就推出了自動(dòng)標(biāo)注,怎么做自動(dòng)標(biāo)注?
在影子模式的過程中得到了非常多的數(shù)據(jù),數(shù)據(jù)能夠自動(dòng)地進(jìn)行相對準(zhǔn)確的標(biāo)注;
然后用人工進(jìn)行抽檢的方式,能夠現(xiàn)在越來越好地為深度學(xué)習(xí)/transformer的模型等提供更多輸入數(shù)據(jù)。
這樣一方面是有影子模式去收集場景數(shù)據(jù)。另一方面又通過自動(dòng)標(biāo)注把這些數(shù)據(jù)變得結(jié)構(gòu)化。通過這樣的方式打通,就使得特斯拉成為了全世界到現(xiàn)在為止獲取相對準(zhǔn)確的結(jié)構(gòu)化信息數(shù)據(jù)的最快也最廉價(jià)的一個(gè)車企。
除此之外,特斯拉在AI Day透露,另外一個(gè)數(shù)據(jù)來源就是 虛擬仿真。
除了對數(shù)據(jù)要求比較多,BEV算法對算力的要求也比極高。那BEV算法如何才能降低算計(jì)的消耗呢?
用相對輕量化的模型;
用多任務(wù)模型就統(tǒng)一一個(gè)模型,但輸出多個(gè)任務(wù)可能是靜態(tài)可能動(dòng)態(tài)的,反正就是用一個(gè)模型輸出多個(gè);
對算子做一些優(yōu)化。
占用網(wǎng)絡(luò)依然是一個(gè)類似于“上帝視角”的視角,還把多個(gè)傳感器做了融合。
下方圖像是特斯拉的結(jié)果,他們把空間做了網(wǎng)格化的分區(qū),分割之后,每一個(gè)小方塊叫做體素,類似于像素。
只要在這個(gè)空間的體素下被占用了,都會(huì)被系統(tǒng)認(rèn)為是1,賦值1,否則賦值為0。只要知道物體在空間里面占據(jù)了一定的體素,系統(tǒng)就會(huì)把它顯示出來,并判定它是一個(gè)障礙物。
特斯拉的想法是,應(yīng)用好占用網(wǎng)絡(luò),再加上4D雷達(dá)點(diǎn)云信息去做融合,解決了部分特殊場景問題后,最終就能取代激光雷達(dá)。
在2020、2021年前后, 元戎啟行的CEO周光也曾向我展示過類似于體素的概念,這可以說明我們國內(nèi)的科技公司對這部分技術(shù)掌握得很不錯(cuò)。
占有網(wǎng)絡(luò)解決了不識別就不能作為障礙物的問題,后續(xù)我們還需要對相關(guān)算法繼續(xù)做更多的優(yōu)化,去減少算力的消耗,同時(shí)增加它的實(shí)時(shí)性,才能保證獲取有更好的效果。
Q:如果高精地圖后續(xù)大規(guī)模開放,各家會(huì)繼續(xù)走輕地圖重感知的路線還是重新去用高精地圖?
A:高精地圖的更新成本巨大,且更新頻率低,而隨著感知算法效率的提升,系統(tǒng)對高精地圖的依賴性將逐步降低。
Q:大概在兩三個(gè)月以前,李想表示要轉(zhuǎn)向BEV加transformer的方案,理想汽車要在2030年成為一家AI公司。從這么一個(gè)角度來看, BEV加transformer的方案它到底是有學(xué)術(shù)意義上的貢獻(xiàn),還是說它其實(shí)解決了一些工程上問題?
A:transformer本身是一個(gè)創(chuàng)新性、顛覆性的東西,但是transformer和BEV的結(jié)合,或者說比如深度學(xué)習(xí)和BEV的結(jié)合,這是由工程驅(qū)動(dòng)的解決問題的方式所得到的創(chuàng)新。
Q:BEV加transformer的方案對整個(gè)軟件或者算法層面的架構(gòu),從整個(gè)硬件的計(jì)算架構(gòu)來說,它會(huì)產(chǎn)生怎樣的一些影響?
A:在軟件層面,剛開始大家會(huì)基于BEV整理一套架構(gòu)。比如說,很多的科技公司開始去提出基于BEV去做各種傳感器的訓(xùn)練,然后得到了一個(gè)BEV平臺(tái),之后可以在上面去適配更多不同像素的攝像頭、不同角度的攝像頭,不同原理的激光雷達(dá)或者是3D、4D毫米波雷達(dá),所以大家開始基于BEV去形成一個(gè)范式。
BEV加transformer的方案最厲害的點(diǎn)就在于給智能感知一個(gè)新范式,大家可以基于這個(gè)范式去積累更多的數(shù)據(jù)和模型。在硬件層面,可能更多給硬件一些幫助,當(dāng)軟件的適配平臺(tái)化能力得到提升的時(shí)候,那么硬件的改變它給軟件帶來的障礙就沒有那么大了。
Q:BEV是不是跟著大模型訓(xùn)練,BEV構(gòu)造出來的數(shù)據(jù)場景是不是大模型訓(xùn)練實(shí)現(xiàn)的基礎(chǔ),或者說更方便大模型來訓(xùn)練出一些輔助駕駛的模型?
A:可以把BEV梳理為三個(gè)階段:
用傳統(tǒng)的只知道攝像頭的內(nèi)參幾何變換的方式得到的,但因?yàn)橥獠康缆翻h(huán)境、車本身俯仰角的變化,使得模型很容易失效;
開始去嘗試引入到車的位置信息,道路信息,然后開始去用深度學(xué)習(xí)去做BEV;
2021年開始,特斯拉把transformer和BEV做了結(jié)合之后,增加了多傳感器,國內(nèi)車廠開始跟隨此方案,第三個(gè)階段確實(shí)和大模型有非常大的關(guān)系。
Q:按目前的法律規(guī)定來說,未來 BEV構(gòu)圖的語義地圖可以用到其他車上嗎?
A:這取決于一個(gè)點(diǎn), BEV模型所生成的語義地圖能不能夠非常精確地重構(gòu)關(guān)鍵的地理信息。如果能這個(gè)本身一定是需要被監(jiān)管,如果它的程度不足以對國家造成安全傷害,但是卻又能夠幫助車輛進(jìn)行城市道路下或者高速公路的NOA功能,這就是可以被保留。但是我們不太了解這個(gè)度在哪里。
現(xiàn)階段重構(gòu)出來的如果是個(gè)局部地圖還好,但如果是把很多的車輛都放在一起,去形成一個(gè)全局地圖可能會(huì)有問題。
Q:transformer和BEV方案對最低算力要求是多少?
A:基本上是基于200Tops以上算力,保證有很好的效果,BEV模型現(xiàn)階段還是在比較依賴大算力的。
Q:在BEV的技術(shù)下如何兼顧遠(yuǎn)距離,特別是大于100米的感知精度?
A:BEV里面本身已經(jīng)有了transformer,已經(jīng)做了很多優(yōu)化了,但現(xiàn)在的體量模型的復(fù)雜度都還是很高的,不可能看得非常的遠(yuǎn)。
那索性在BEV超視距的范圍內(nèi),增加一個(gè)原本傳統(tǒng)的算法,用2D算法去跟蹤更加遠(yuǎn)的物體,但是當(dāng)它進(jìn)入到了BEV體系之后,我們可以在幾何上做變換,認(rèn)為它是同一個(gè)物體。
Q:BEV方案落地后,未來對地圖的需求是不是會(huì)大幅度減少,BEV對整個(gè)技術(shù)棧有怎樣的影響?
A:如果是做地圖的同學(xué)考慮轉(zhuǎn)換專業(yè),比如原來做定位、slam這些做定位的可能會(huì)相對容易轉(zhuǎn)過去,它的底層有很多比較像的地方。當(dāng)然如果原來做規(guī)劃決策,那還是可以的。
至少從現(xiàn)在的技術(shù)趨勢來看,以后可能用的也許就是一個(gè)導(dǎo)航地圖或者ADAS地圖,或者是由眾包構(gòu)建出來的語義地圖。趨勢是相對明確的,就是要輕地圖重感知。
Q:自研BEV的難度和研發(fā)周期必備的前置條件,剛才提到有大數(shù)據(jù),那么基礎(chǔ)設(shè)施有哪些?
A:首先就是數(shù)據(jù),其次是要盡快形成數(shù)據(jù)閉環(huán),獲取數(shù)據(jù)的方式要改變,能夠通過眾包和實(shí)際生產(chǎn)環(huán)境里面的量產(chǎn)車去得到數(shù)據(jù)。
再有就是虛擬仿真,其實(shí)是因?yàn)橛行﹫鼍埃热缯f極端場景,比如車禍場景等等這種,是沒有辦法去采集的,那么也許就需要虛擬仿真。
還要有數(shù)據(jù)中心,現(xiàn)在模型的復(fù)雜度在提升,多幀之間的處理,數(shù)據(jù)的量也在爆發(fā),所以可能大的車廠后續(xù)需要有自己的數(shù)據(jù)中心進(jìn)行持續(xù)的數(shù)據(jù)訓(xùn)練和迭代,對數(shù)據(jù)要自動(dòng)標(biāo)注,數(shù)據(jù)標(biāo)完之后自動(dòng)結(jié)構(gòu)化之后還要自動(dòng)的長期可持續(xù)地迭代和訓(xùn)練,才能使得基于數(shù)據(jù)驅(qū)動(dòng)的這些算法越來越好。
Q:目前國外和國內(nèi)關(guān)于BEV的差距大概是一個(gè)什么樣的情況?
A:在學(xué)術(shù)層面來說,非常顯性的趨勢是,一個(gè)創(chuàng)新性、顛覆性的技術(shù)可能不是中國人提出來的,但是我們有能力很快就follow它,把它變得更好。
但是在工程化層面,我們應(yīng)該把特斯拉和其他的海外的的OEM分開,那么然后再把咱們中國的OEM放進(jìn)來,在很多層面,特斯拉是顯性領(lǐng)先的。
整體來說, 全球化的OEM開始去要開始反思自己為什么這么慢,然后為什么在人工智能方面持續(xù)的投入不夠多等等,那么所以特斯拉是領(lǐng)先的,接下來可能是咱們的一些相對來說比較重投入的的OEM。
Q:怎么看待純視覺和激光雷達(dá)的路線?
A:某種意義上,激光雷達(dá)是對我們的訓(xùn)練數(shù)據(jù)不足的一個(gè)補(bǔ)充。如果假設(shè)有無限的、準(zhǔn)確的結(jié)構(gòu)化數(shù)據(jù),確實(shí)是不需要激光雷達(dá),可以快速的訓(xùn)練出來一個(gè)模型,這個(gè)模型因?yàn)閿?shù)據(jù)量很大,可以無限接近激光雷達(dá)的精度,但因?yàn)楝F(xiàn)在我們的所得到的數(shù)據(jù)量有限,我們就想又想要得到一個(gè)不錯(cuò)效果的車,那么激光雷達(dá)放進(jìn)來,它就是一個(gè)好又快、顯性度高的補(bǔ)充。
Q:單目攝像頭本身有它的缺陷,然后目前也有一些公司去堅(jiān)持要走就是雙目視覺的路線,比方說大疆,怎么看目前堅(jiān)持走雙目方案的供應(yīng)商?
A:我曾跟大疆的沈劭劼討論過這個(gè)話題。大疆之所以選擇雙目,是因?yàn)橐ソ鉀Q物體障礙物分類的問題,如果是用現(xiàn)在的BEV本質(zhì)上無法解決這個(gè)問題,雙目確實(shí)也還是很好的補(bǔ)充。
另外,還可以選擇雙目加上毫米波雷達(dá),但如果成本有限,那么可以選擇雙目或者是單目加毫米波雷達(dá),那么在傳統(tǒng)系統(tǒng)設(shè)計(jì)里還傾向于異構(gòu),即一個(gè)單目加一個(gè)毫米波雷達(dá),因?yàn)樗钱悩?gòu)融合傳感器。
Q:隨著BEV發(fā)展,對于數(shù)據(jù)量的需求是一個(gè)量級的提升,那么有大量的標(biāo)定數(shù)據(jù),在不同的車型和不同的攝像頭配置方案的背景下,它能夠做到通用嗎?
A:這個(gè)問題其實(shí)是針對的是提供數(shù)據(jù)服務(wù)的提供商,然后他們怎么去更好的去服務(wù)好這些OEM。
成本會(huì)增加,難度是在變,大成本是在增加。自動(dòng)標(biāo)注的算法能不能夠盡量多的去取代人工,比如人工只做抽樣檢測或者做檢測,但不用再標(biāo)了。也許這是一個(gè)未來的好方向,但一定需要大量的、準(zhǔn)確的結(jié)構(gòu)化信息,而且2D數(shù)據(jù)復(fù)用不了。
Q:車廠、Tier 1解決方案商和芯片公司哪一方有可能會(huì)在BEV方面做得更好?
A:大概在兩年前,判斷哪一家車廠能夠做得更好的時(shí)候,我當(dāng)時(shí)總結(jié)說,哪一家車廠能夠在短時(shí)間里面得到大量的、準(zhǔn)確的、低成本的結(jié)構(gòu)化信息,誰就會(huì)做得更好。
那么在現(xiàn)階段來說,如果說針對BEV這個(gè)模型來說,我覺得重要點(diǎn)在于它要持續(xù)的有數(shù)據(jù)灌入且能持續(xù)的迭代。
那么在持續(xù)性這個(gè)層面,傳統(tǒng)車廠要去克服體制的原因,這個(gè)情況就是說,我們需要有會(huì)做決定的人,他知道要持續(xù)的、不斷為這個(gè)事情,為訓(xùn)練數(shù)據(jù)收集數(shù)據(jù)形成數(shù)據(jù)閉環(huán),去不斷的優(yōu)化算法,這個(gè)事情要持續(xù)的迭代和升級。
首先,BEV作為算法的Tier1或Tier 2安身立命的東西,他們是有大概率做好的。第二個(gè)是以新技術(shù)作為賣點(diǎn)的的新造車。
來源:第一電動(dòng)網(wǎng)
作者:HiEV
本文地址:http://www.vlxuusu.cn/kol/203477
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。