隨著人工智能技術(shù)方向邁向大模型階段,以及智能駕駛在城市場(chǎng)景的落地,自動(dòng)駕駛技術(shù)迎來(lái)重大變革機(jī)遇,正在進(jìn)入以數(shù)據(jù)驅(qū)動(dòng)為核心,以大模型、大數(shù)據(jù)、大算力為特征的自動(dòng)駕駛 3.0 時(shí)代。
自動(dòng)駕駛 3.0 時(shí)代,是毫末智行 CEO 顧維灝在 2022 年 9 月的 AI DAY 上提出的一個(gè)技術(shù)概念,是對(duì)自動(dòng)駕駛技術(shù)過(guò)去二十年技術(shù)發(fā)展階段的準(zhǔn)確劃分,分別是:
以硬件驅(qū)動(dòng)為主的自動(dòng)駕駛 1.0 時(shí)代;
以軟件驅(qū)動(dòng)為主的自動(dòng)駕駛 2.0 時(shí)代;
以數(shù)據(jù)驅(qū)動(dòng)為主的自動(dòng)駕駛 3.0 時(shí)代。
其中,相較于前面兩個(gè)階段,3.0 時(shí)代的關(guān)鍵是在數(shù)據(jù)驅(qū)動(dòng)下,AI 算法的訓(xùn)練方式發(fā)生了根本性變化:
即從小模型、小數(shù)據(jù)的任務(wù)型訓(xùn)練升級(jí)為大模型、大數(shù)據(jù)的通用型預(yù)訓(xùn)練方式,其中所對(duì)應(yīng)需要的智能駕駛真實(shí)行駛里程數(shù)據(jù)規(guī)模至少要在一億公里。
11 月 29 日,毫末宣布其乘用車(chē)用戶(hù)輔助駕駛里程達(dá)到一億公里。
這一數(shù)據(jù)在 2022 年 9 月時(shí)僅 1700 萬(wàn)公里,在 2023 年初接近 2500 萬(wàn)公里,在 4 月時(shí)達(dá)到了 4000 萬(wàn)公里。
由此可見(jiàn),隨著毫末智駕產(chǎn)品落地規(guī)模和用戶(hù)活躍度的增長(zhǎng),毫末智能駕駛數(shù)據(jù)積累迎來(lái)了加速的曲線增長(zhǎng),為毫末所致力于打造的數(shù)據(jù)智能體系提供了源源不斷的真實(shí)場(chǎng)景數(shù)據(jù)。
獲得一億公里的量產(chǎn)智能駕駛真實(shí)場(chǎng)景數(shù)據(jù),標(biāo)志著毫末成為第一個(gè)進(jìn)入自動(dòng)駕駛 3.0 時(shí)代的中國(guó)自動(dòng)駕駛技術(shù)公司,也成為毫末打造數(shù)據(jù)閉環(huán)驅(qū)動(dòng)系統(tǒng)的階段性的里程碑。
01 從 1.0 到 3.0 時(shí)代,自動(dòng)駕駛的兩次技術(shù)范式變革
自動(dòng)駕駛作為一項(xiàng)新型技術(shù)出現(xiàn),可以從 2004 年 DARPA 舉辦第一屆自動(dòng)駕駛挑戰(zhàn)賽算起,至今正好將近二十年時(shí)間。
之后這二十年中,自動(dòng)駕駛技術(shù)一直在「感知-決策-執(zhí)行」經(jīng)典框架下,沿著硬件、算力、算法、數(shù)據(jù)持續(xù)升級(jí)的方向前進(jìn)。
發(fā)展至今,一個(gè)巨大變量就是人工智能技術(shù)的革命性突破,即深度學(xué)習(xí)算法以及 AI 大模型技術(shù)的出現(xiàn),使得自動(dòng)駕駛迎來(lái)質(zhì)變時(shí)刻。
數(shù)據(jù)驅(qū)動(dòng)成為推動(dòng)這場(chǎng)技術(shù)質(zhì)變的關(guān)鍵。
與眾多技術(shù)范式一樣,自動(dòng)駕駛技術(shù)的進(jìn)展遵循著從量變引發(fā)質(zhì)變的規(guī)律。
結(jié)合自動(dòng)駕駛演變歷程與發(fā)展規(guī)律,自動(dòng)駕駛技術(shù)的發(fā)展階段可以從自動(dòng)駕駛行駛數(shù)據(jù)規(guī)模、感知傳感器模式及感知算法實(shí)現(xiàn)方式、認(rèn)知算法實(shí)現(xiàn)方式以及數(shù)據(jù)處理及 AI 算法模型訓(xùn)練方式,這四個(gè)維度進(jìn)行對(duì)比。
自動(dòng)駕駛的 1.0 時(shí)代,大致是從 2004 年到 2014 年之間,自動(dòng)駕駛從始至終以實(shí)現(xiàn)無(wú)人駕駛為目標(biāo),主導(dǎo)者主要是美國(guó)高校和谷歌這樣的科技公司。
和主機(jī)廠在安全性、性?xún)r(jià)比、車(chē)規(guī)級(jí)等要求下僅實(shí)現(xiàn) L0-L1 的低級(jí)別駕駛輔助不同,這一時(shí)期的自動(dòng)駕駛車(chē)輛掛滿(mǎn)了各種大大小小傳感器硬件,簡(jiǎn)直可以說(shuō)武裝到了牙齒,激光雷達(dá)成為自動(dòng)駕駛汽車(chē)必不可少的配置。
車(chē)端的感知能力,主要靠激光雷達(dá),比拼的是雷達(dá)數(shù)量、線束數(shù)量,從而實(shí)現(xiàn)更可靠的道路障礙物的測(cè)距、測(cè)速,靜態(tài)環(huán)境則主要依靠高精地圖來(lái)實(shí)現(xiàn);在認(rèn)知上,則基本使用人工規(guī)則的方式來(lái)實(shí)現(xiàn)。
由于車(chē)輛整體成本比較高,所以車(chē)輛數(shù)量有限,導(dǎo)致自動(dòng)駕駛里程規(guī)模比較少,數(shù)據(jù)積累當(dāng)時(shí)在數(shù)百萬(wàn)公里左右。因此,此時(shí)距離真正安全可靠的無(wú)人駕駛的目標(biāo)還有相當(dāng)大差距。
自動(dòng)駕駛 2.0 時(shí)代,大致是從 2014 年至 2021 年期間。
這一階段,大量的自動(dòng)駕駛初創(chuàng)公司紛紛出現(xiàn),傳統(tǒng)主機(jī)廠也嘗試以投資、收購(gòu)等方式卷入自動(dòng)駕駛,被稱(chēng)為新勢(shì)力的特斯拉更是在新能源車(chē)站穩(wěn)腳跟之后,在 2014 年開(kāi)始推出了 Autopilot 智能駕駛系統(tǒng)。
這期間,更大算力的車(chē)端計(jì)算芯片陸續(xù)出現(xiàn),車(chē)規(guī)級(jí)傳感器的數(shù)量也在快速增加,終于迎來(lái)了深度學(xué)習(xí)技術(shù)在車(chē)上的廣泛應(yīng)用。
在感知上,各個(gè)傳感器各自為戰(zhàn),用一些小模型和少量數(shù)據(jù)做訓(xùn)練,得到單個(gè)傳感器的識(shí)別結(jié)果,然后進(jìn)行感知結(jié)果級(jí)的融合;在認(rèn)知上,依然是人工規(guī)則和一些機(jī)器學(xué)習(xí)算法為主。
隨著自動(dòng)駕駛公司運(yùn)營(yíng)測(cè)試車(chē)隊(duì)的增加和測(cè)試范圍的擴(kuò)大,自動(dòng)駕駛行駛里程也快速在增加,達(dá)到數(shù)千萬(wàn)公里。
而典型代表的特斯拉,在 2019 年之后,隨著特斯拉的量產(chǎn)車(chē)型走出產(chǎn)能低谷,搭載其智能駕駛系統(tǒng)給的車(chē)輛的行駛里程快速突破上億公里,快速構(gòu)筑起特斯拉 FSD 系統(tǒng)的數(shù)據(jù)閉環(huán)系統(tǒng)。
自動(dòng)駕駛 3.0 時(shí)代,從 2021 年肇始,特斯拉無(wú)疑成為這場(chǎng)技術(shù)變革的推動(dòng)者,其標(biāo)志就是以數(shù)據(jù)驅(qū)動(dòng)的 AI 大模型技術(shù)開(kāi)始應(yīng)用在車(chē)端上,推動(dòng)自動(dòng)駕駛技術(shù)進(jìn)入新階段。
相比較前兩階段中 AI 技術(shù)在自動(dòng)駕駛技術(shù)中少量參與,3.0 時(shí)代是一個(gè)完全不一樣的時(shí)代,數(shù)據(jù)驅(qū)動(dòng)意味著利用 AI 大模型使得數(shù)據(jù)自己可以訓(xùn)練自己。
自動(dòng)駕駛公司重點(diǎn)投入將要放在數(shù)據(jù)通道和智算中心的打通和建設(shè)上,以此可以更高效地獲取數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)化為知識(shí)。
在感知方向,會(huì)采用多個(gè)傳感器、不同模態(tài)傳感器的原始數(shù)據(jù)聯(lián)合輸出感知結(jié)果。
在認(rèn)知方向,通過(guò)認(rèn)知大模型處理真實(shí)人駕數(shù)據(jù)和場(chǎng)景,形成可解釋的場(chǎng)景化駕駛策略,再配以 AI 的實(shí)時(shí)計(jì)算,擬人化融入社會(huì)交通流。
AI 算法的訓(xùn)練方式也發(fā)生了根本變化,就是從小模型、少數(shù)據(jù)升級(jí)為大模型、大數(shù)據(jù)的訓(xùn)練方式,因此所對(duì)應(yīng)的智能駕駛里程所產(chǎn)出的數(shù)據(jù)規(guī)模至少在一億公里以上。
當(dāng)前,行業(yè)對(duì)于自動(dòng)駕駛 3.0 時(shí)代的階段特征基本已經(jīng)達(dá)成了共識(shí)。
以「自動(dòng)駕駛 3.0 時(shí)代」為關(guān)鍵詞,可以發(fā)現(xiàn)過(guò)去的一年多時(shí)間,這一概念頻繁出現(xiàn)在行業(yè)報(bào)告、論壇主題以及行業(yè)媒體的各種表述中。
行業(yè)普遍認(rèn)為,隨著自動(dòng)駕駛技術(shù)范式向 3.0 時(shí)代演進(jìn),數(shù)據(jù)驅(qū)動(dòng)的算法模型的演進(jìn)和數(shù)據(jù)閉環(huán)成為技術(shù)競(jìng)爭(zhēng)更重要的勝負(fù)手,從而更好推動(dòng)「Transformer+BEV」為主要架構(gòu)的感知路線的落地,加速了城市場(chǎng)景高階輔助駕駛的落地,為進(jìn)化到端到端自動(dòng)駕駛提供可能。
而提出 3.0 時(shí)代概念的毫末智行,則通過(guò)量產(chǎn)輔助駕駛的規(guī)?;涞?,提早布局?jǐn)?shù)據(jù)智能閉環(huán)體系,大力投入建設(shè)云端智算中心,為適應(yīng)自動(dòng)駕駛 3.0 時(shí)代的技術(shù)趨勢(shì),做好了充足的準(zhǔn)備。
02 3.0 時(shí)代,毫末構(gòu)筑的大模型、大數(shù)據(jù)、大算力技術(shù)范式
2021 年,特斯拉率先將 Transformer 架構(gòu)引入自動(dòng)駕駛系統(tǒng)當(dāng)中,并在其當(dāng)年的 AI Day 上公布了基于 Transformer 模型的「純視覺(jué)」BEV 感知方案,同時(shí)也公布了其以數(shù)據(jù)驅(qū)動(dòng) AI 算法進(jìn)化的數(shù)據(jù)閉環(huán)體系,使其成為自動(dòng)駕駛 3.0 時(shí)代的典型玩家。
同一時(shí)期,剛剛成立不到兩年的毫末智行,也已經(jīng)注意到 Transformer 架構(gòu)在視覺(jué)領(lǐng)域的最新成果,認(rèn)識(shí)到 Transformer 架構(gòu)在自動(dòng)駕駛的場(chǎng)景中在未來(lái)極有可能替代原有的 CNN 算法架構(gòu),成為視覺(jué)任務(wù)的主流神經(jīng)網(wǎng)絡(luò)范式。
在當(dāng)時(shí)的感知方案中,毫末智行設(shè)計(jì)了可進(jìn)行車(chē)道線識(shí)別的 BEV Transformer,就是在得到視覺(jué)數(shù)據(jù)后,使用 Resnet+FPN 對(duì) 2D 圖像進(jìn)行處理,形成 BEV Mapping,再通過(guò)多個(gè) Cross Attention 機(jī)制訓(xùn)練,最終組成一個(gè)完整的 BEV 空間。
與純視覺(jué)方案不同的是,毫末的方案采用了視覺(jué)+激光雷達(dá)的多模態(tài)感知,BEV 投射與 Lidar 模型融合,再結(jié)合 BEV 的時(shí)序特征,進(jìn)一步提升識(shí)別的準(zhǔn)確率和連續(xù)性。
隨著對(duì) Transformer 架構(gòu)能力的不斷深入應(yīng)用,毫末構(gòu)建起不依賴(lài)高精地圖而更多依靠激光雷達(dá)+視覺(jué)的重感知方案,從而構(gòu)建起更強(qiáng)能力的時(shí)空感知的 BEV 空間,完成更準(zhǔn)確的車(chē)道線輸出和一般障礙物的識(shí)別。
當(dāng) Transformer 架構(gòu)的不斷擴(kuò)大和參數(shù)規(guī)模的增長(zhǎng),以及所要處理的感知數(shù)據(jù)規(guī)??焖僭鲩L(zhǎng),帶來(lái)了對(duì)于云端計(jì)算平臺(tái)能力的緊迫需求。
為此,經(jīng)過(guò)一年左右的籌備,毫末在 2023 年初推出了自動(dòng)駕駛行業(yè)首個(gè)智算中心雪湖·綠洲(MANA OASIS),AI 算力規(guī)模達(dá)到 67 億億次每秒浮點(diǎn)運(yùn)算,成為當(dāng)時(shí)最大 AI 算力的自動(dòng)駕駛智算中心。
基于 Transformer 架構(gòu),毫末在感知技術(shù)上探索建立了多個(gè)感知大模型。
比如,針對(duì)自動(dòng)駕駛數(shù)據(jù)標(biāo)注的視覺(jué)自監(jiān)督大模型,可以從圖片數(shù)據(jù)過(guò)渡到 4D Clips 視頻數(shù)據(jù)形態(tài),對(duì)海量 Clips 數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再通過(guò)少量人工標(biāo)注 clips 數(shù)據(jù)進(jìn)行 Finetune,訓(xùn)練出檢測(cè)跟蹤模型,從而使得模型具備自動(dòng)標(biāo)注能力,然后就可以實(shí)現(xiàn)對(duì)大量單幀未標(biāo)注數(shù)據(jù)向 Clips 標(biāo)注數(shù)據(jù)的自動(dòng)轉(zhuǎn)化,從而節(jié)省了 98% 的人工標(biāo)注成本。
再比如,在場(chǎng)景重建和仿真能力上,毫末將 NeRF 技術(shù)應(yīng)用在自動(dòng)駕駛場(chǎng)景重建和仿真能力中,構(gòu)建的 3D 重建大模型可以通過(guò)改變視角、光照、紋理材質(zhì)的方法,生成高真實(shí)感數(shù)據(jù),從而可以低成本構(gòu)造大量自動(dòng)駕駛的 Corner case。
還有構(gòu)建了多模態(tài)互監(jiān)督大模型,引入了激光雷達(dá)作為視覺(jué)監(jiān)督信號(hào),直接使用視頻數(shù)據(jù)來(lái)推理場(chǎng)景的通用結(jié)構(gòu)表達(dá),可以完成城市多種異形障礙物等通用障礙物的識(shí)別。
此外還構(gòu)建了動(dòng)態(tài)環(huán)境大模型,即在 BEV 的 feature map 基礎(chǔ)上,以標(biāo)精地圖作為引導(dǎo)信息,使用自回歸編解碼網(wǎng)絡(luò),將 BEV 特征解碼為結(jié)構(gòu)化的拓?fù)潼c(diǎn)序列,實(shí)現(xiàn)車(chē)道拓?fù)漕A(yù)測(cè),讓車(chē)端感知能力,能像人類(lèi)一樣在標(biāo)準(zhǔn)地圖的導(dǎo)航提示下,就可以實(shí)現(xiàn)對(duì)道路拓?fù)浣Y(jié)構(gòu)的實(shí)時(shí)推斷。
這些感知大模型仍然是以不同感知任務(wù)的方式來(lái)進(jìn)行訓(xùn)練,而很快毫末意識(shí)到應(yīng)該采用一個(gè)更為通用的感知大模型,將多個(gè)下游任務(wù)集中到一起,形成一個(gè)更為基礎(chǔ)的預(yù)訓(xùn)練大模型的架構(gòu),將道路場(chǎng)景環(huán)境的三維結(jié)構(gòu)、速度場(chǎng)和紋理分布融合到同一個(gè)訓(xùn)練目標(biāo)里進(jìn)行訓(xùn)練,適配所有主流視覺(jué)感知任務(wù)。
在認(rèn)知決策場(chǎng)景,毫末率先采用類(lèi)似 ChatGPT 生成式預(yù)訓(xùn)練大模型的實(shí)現(xiàn)方式,對(duì)自動(dòng)駕駛認(rèn)知決策模型進(jìn)行持續(xù)優(yōu)化。為此,毫末構(gòu)建起人駕自監(jiān)督大模型,探索使用大量人駕數(shù)據(jù),去訓(xùn)練模型做出擬人化的駕駛決策。為了讓模型能夠?qū)W習(xí)到人類(lèi)司機(jī)的優(yōu)秀的駕駛策略。
在此基礎(chǔ)上,毫末通過(guò)引入駕駛數(shù)據(jù),使用 RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))技術(shù),推出了自動(dòng)駕駛生成式大模型 DriveGPT(雪湖·海若)。
其中,DriveGPT 模型參數(shù)規(guī)模達(dá)到 1200 億,在預(yù)訓(xùn)練階段引入數(shù)千萬(wàn)公里量產(chǎn)車(chē)駕駛數(shù)據(jù),在 RLHF 階段引入數(shù)萬(wàn)段人工精選的困難場(chǎng)景接管 Clips 數(shù)據(jù),從而保證大模型在預(yù)訓(xùn)練階段以及 RLHF 階段的數(shù)據(jù)量規(guī)模和數(shù)據(jù)的泛化性能。
基于生成式預(yù)訓(xùn)練大模型所建立的技術(shù)范式,毫末很快將 DriveGPT 大模型進(jìn)行了進(jìn)一步的升級(jí),也就是圍繞通用感知、通用認(rèn)知能力,建立起一個(gè)統(tǒng)一的大模型,探索端到端自動(dòng)駕駛的技術(shù)新范式。
在感知階段,DriveGPT 通過(guò)構(gòu)建通用感知大模型來(lái)實(shí)現(xiàn)對(duì)真實(shí)物理世界的學(xué)習(xí),并通過(guò)與 NeRF 技術(shù)整合,將真實(shí)世界建模到三維空間,再加上時(shí)序形成 4D 向量空間。
在構(gòu)建對(duì)真實(shí)物理世界的 4D 感知基礎(chǔ)上,毫末進(jìn)一步引入開(kāi)源的圖文多模態(tài)大模型,實(shí)現(xiàn) 4D 向量空間到語(yǔ)義空間的對(duì)齊,實(shí)現(xiàn)跟人類(lèi)一樣的「識(shí)別萬(wàn)物」的能力。
在認(rèn)知階段,基于通用感知大模型構(gòu)建的「識(shí)別萬(wàn)物」能力的基礎(chǔ)上,DriveGPT 通過(guò)構(gòu)建駕駛語(yǔ)言(Drive Language)來(lái)描述駕駛環(huán)境和駕駛意圖,再結(jié)合導(dǎo)航引導(dǎo)信息以及自車(chē)歷史動(dòng)作,并借助外部大語(yǔ)言模型 LLM 的海量知識(shí)來(lái)輔助給出駕駛解釋和駕駛建議。
DriveGPT 的認(rèn)知大模型借助大語(yǔ)言模型 LLM,將世界知識(shí)引入到駕駛策略中,使得自動(dòng)駕駛認(rèn)知決策獲得了人類(lèi)社會(huì)的常識(shí)和推理能力,也就是具備世界知識(shí),從而大幅度提升自動(dòng)駕駛策略的可解釋性和泛化性。
毫末智行 CEO 顧維灝在 AI DAY 上對(duì)這一通用的自動(dòng)駕駛大模型有一段精辟的論述:
「未來(lái)的自動(dòng)駕駛系統(tǒng)一定跟人類(lèi)駕駛員一樣,不但具備對(duì)三維空間的精確感知測(cè)量能力,而且能夠像人類(lèi)一樣理解萬(wàn)物之間的聯(lián)系、事件發(fā)生的邏輯和背后的常識(shí),并且能基于這些人類(lèi)社會(huì)的經(jīng)驗(yàn)來(lái)做出更好的駕駛策略?!?/span>
03 新范式邁向 3.0 時(shí)代
總體來(lái)看,自動(dòng)駕駛 3.0 時(shí)代的技術(shù)升級(jí)不再是簡(jiǎn)單的算法的疊加,不是傳感器的堆料,也不是場(chǎng)景的簡(jiǎn)單復(fù)制,而是自動(dòng)駕駛技術(shù)方式的重構(gòu),也就是以數(shù)據(jù)驅(qū)動(dòng)和大模型的方式重塑自動(dòng)駕駛的技術(shù)路線。
顧維灝也給出了 3.0 時(shí)代的技術(shù)架構(gòu)的技術(shù)演進(jìn)模式:
當(dāng)前先是在云端實(shí)現(xiàn)感知大模型、認(rèn)知大模型的能力突破,并將車(chē)端各類(lèi)小模型逐步統(tǒng)一到感知模型和認(rèn)知模型,同時(shí)將控制模塊也模型化。
下一階段,車(chē)端智駕系統(tǒng)的演進(jìn)路線一方面是會(huì)逐步全鏈路模型化,另一方面是逐步大模型化,即小模型逐漸統(tǒng)一到大模型內(nèi)。云端大模型也可以通過(guò)剪枝、蒸餾等方式逐步提升車(chē)端的感知能力。最終階段,在未來(lái)車(chē)端、云端都是端到端的自動(dòng)駕駛大模型。
可以預(yù)計(jì),伴隨自動(dòng)駕駛 3.0 時(shí)代技術(shù)變革同時(shí)到來(lái)的趨勢(shì),量產(chǎn)智能駕駛開(kāi)始走向城市場(chǎng)景。
而隨著量產(chǎn)輔助駕駛乘用車(chē)的大規(guī)模上路,又會(huì)快速積累開(kāi)放道路環(huán)境下的海量數(shù)據(jù)以及人駕接管數(shù)據(jù),會(huì)帶來(lái)類(lèi)型豐富的真是場(chǎng)景數(shù)據(jù)。
這將真正實(shí)現(xiàn)以數(shù)據(jù)驅(qū)動(dòng)的方式,推動(dòng)自動(dòng)駕駛技術(shù)發(fā)生質(zhì)的飛躍,最終在 3.0 時(shí)代抵達(dá)完全自動(dòng)駕駛這一應(yīng)許之地。
來(lái)源:第一電動(dòng)網(wǎng)
作者:汽車(chē)之心
本文地址:http://www.vlxuusu.cn/kol/214062
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。