4月25日,商湯絕影面向量產(chǎn)的真·端到端自動(dòng)駕駛解決方案UniAD(Unified Autonomous Driving)在北京車展上完成上車演示首秀。在2022年底提出行業(yè)首個(gè)感知決策一體化自動(dòng)駕駛通用模型UniAD并榮獲2023年國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR) 最佳論文后,商湯絕影率先實(shí)現(xiàn)中國(guó)端到端自動(dòng)駕駛方案從技術(shù)創(chuàng)新到車端部署的關(guān)鍵突破。
真·端到端方案上車演示首秀,UniAD起步即城區(qū),暢行鄉(xiāng)村路
隨著智駕的落地場(chǎng)景從高速進(jìn)入城區(qū),道路環(huán)境的復(fù)雜度急劇提高,對(duì)于傳統(tǒng)智駕方案來(lái)說(shuō),無(wú)保護(hù)左轉(zhuǎn)的城區(qū)復(fù)雜場(chǎng)景是不小的挑戰(zhàn),需要多傳感器融合感知且大量投入資源來(lái)解決各種長(zhǎng)尾問(wèn)題。
而UniAD實(shí)車部署后就開(kāi)始學(xué)習(xí)如何在城區(qū)道路上行駛,如今,搭載UniAD端到端自動(dòng)駕駛解決方案的車輛僅憑攝像頭的視覺(jué)感知,無(wú)需高精地圖,通過(guò)數(shù)據(jù)學(xué)習(xí)和驅(qū)動(dòng)就可以像人一樣觀察并理解外部環(huán)境,然后基于足夠豐富的感知信息,UniAD能夠自己思考并作出決策,像人一樣開(kāi)車,流暢進(jìn)行無(wú)保護(hù)左轉(zhuǎn)、快速通行人車混行的紅綠燈路口,自主解決各種高難度的城市復(fù)雜駕駛場(chǎng)景。
(搭載UniAD方案的車輛快速通行人車混行的紅綠燈路口)
不僅如此,在傳統(tǒng)方案較難突破的無(wú)中線的鄉(xiāng)村道路上,UniAD同樣可以自如行駛,完成包括大角度左轉(zhuǎn)上橋、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作,真正做到“像人一樣開(kāi)車”。
(搭載UniAD方案的車輛,可自主避讓施工區(qū)域)
在北京車展的上車演示中就有一個(gè)相當(dāng)復(fù)雜的場(chǎng)景:在臨港無(wú)標(biāo)線鄉(xiāng)村窄路上,對(duì)向有車駛來(lái),前方有行人在跑步,UniAD判斷出前方有足夠的空間進(jìn)行操作,所以在確保安全的情況下,選擇快速向左繞過(guò)行人然后回到正常行駛路線完成會(huì)車,順利解決這一復(fù)雜場(chǎng)景,就像老司機(jī)一樣在開(kāi)車。
(UniAD靈活繞過(guò)行人并完成會(huì)車,真正做到像人一樣開(kāi)車)
商湯絕影用令人驚艷的UniAD實(shí)車測(cè)試成果展現(xiàn)了中國(guó)面向量產(chǎn)的端到端智駕方案的實(shí)力。
UniAD真·端到端:感知決策一體大模型是最優(yōu)解
目前,自動(dòng)駕駛算法的主流架構(gòu)方案是以工程師人為定義的手寫規(guī)則為基礎(chǔ),依靠感知、決策、規(guī)劃等不同模塊的相互配合來(lái)實(shí)現(xiàn)自動(dòng)駕駛。但由于每個(gè)獨(dú)立模塊之間的數(shù)據(jù)是逐級(jí)傳遞的,必然會(huì)存在信息的丟失和誤差,而且前一個(gè)模塊的誤差會(huì)影響到下一個(gè),多個(gè)模塊之間的信息誤差會(huì)不斷累積,進(jìn)而影響到自動(dòng)駕駛方案的整體效果。
而且有限的規(guī)則終究無(wú)法完全覆蓋無(wú)限的復(fù)雜場(chǎng)景和長(zhǎng)尾問(wèn)題,傳統(tǒng)智駕的天花板已經(jīng)開(kāi)始顯現(xiàn)。
想要從感知開(kāi)始就實(shí)現(xiàn)信息的無(wú)損傳遞并打破傳統(tǒng)智駕的天花板,必須要有一個(gè)全新的算法范式,而端到端模型正在為自動(dòng)駕駛開(kāi)辟出了一條全新的技術(shù)路線。
有別于傳統(tǒng)的智駕算法,端到端自動(dòng)駕駛方案是指以最終的駕駛性能為目標(biāo),通過(guò)一種集成化的方式處理自動(dòng)駕駛?cè)蝿?wù),從感知到?jīng)Q策再到控制的整個(gè)流程都依靠Transformer神經(jīng)網(wǎng)絡(luò)模型完成。
隨著UniAD的提出和特斯拉搭載FSD V12版本的實(shí)車上路,越來(lái)越多的公司也開(kāi)始推出自己的“端到端”方案。
目前,市面上不少端到端方案是在感知和決策兩個(gè)模塊分別搭建一個(gè)大模型框架,更容易實(shí)現(xiàn)落地,但“兩段式”端到端方案的感知和決策兩個(gè)模型之間傳輸?shù)男畔⑹侨藶槎x的顯性信息,數(shù)據(jù)傳遞仍然會(huì)有過(guò)濾和丟失。
商湯絕影UniAD方案則是業(yè)界首個(gè)將感知、決策、規(guī)劃等模塊都整合到一個(gè)全棧Transformer端到端模型,實(shí)現(xiàn)感知決策一體化,不需要對(duì)感知數(shù)據(jù)進(jìn)行抽象和逐級(jí)傳遞,“所見(jiàn)即所得”,將原始信息直接輸入到端到端模型中,然后以自車軌跡規(guī)劃為準(zhǔn)進(jìn)行指令輸出,實(shí)現(xiàn)真·端到端自動(dòng)駕駛。
(真·端到端是感知決策一體化)
未來(lái),端到端方案依靠持續(xù)算力投入和高質(zhì)量數(shù)據(jù)學(xué)習(xí)的高效范式將取代單純依靠人力堆砌、耗費(fèi)時(shí)間的低效模式,成為自動(dòng)駕駛在AGI時(shí)代的關(guān)鍵能力。
首先,傳統(tǒng)智駕方案和“兩段式”端到端方案都是依靠人為定義的規(guī)則在傳遞顯性信息,存在信息誤差和丟失,難以完整準(zhǔn)確還原外部場(chǎng)景,而端到端自動(dòng)駕駛大模型最明顯的優(yōu)勢(shì)就在于信息的無(wú)損傳遞,端到端模型基于原始信息進(jìn)行學(xué)習(xí)、思考和推理,最終能像人一樣綜合理解復(fù)雜的交通環(huán)境,并且能夠不斷成長(zhǎng),有著更高的能力上限。
其次,依賴數(shù)據(jù)驅(qū)動(dòng)的端到端方案能夠?qū)⑵鋵W(xué)到的駕駛能力和技巧遷移泛化到其他場(chǎng)景當(dāng)中,具備更快的迭代效率,幫助車企更快速實(shí)現(xiàn)全國(guó)都能開(kāi)的目標(biāo),無(wú)論是城區(qū)還是鄉(xiāng)村道路,現(xiàn)在的UniAD都行駛得游刃有余。
最后,端到端自動(dòng)駕駛大模型是像人一樣感知和理解外部環(huán)境,純視覺(jué)和無(wú)高精地圖就是UniAD與生俱來(lái)的天賦,它只需要導(dǎo)航信息就可以把車駕駛到目的地,天然就能幫助車企降低軟硬件成本。
擁有更高能力上限、更快迭代效率、更低系統(tǒng)成本的感知決策一體大模型是真·端到端智駕的最優(yōu)解。
商湯絕影的真·硬核實(shí)力:強(qiáng)大模型性能、高質(zhì)量數(shù)據(jù)與豐沛算力
和基于規(guī)則的傳統(tǒng)智駕方案相比,端到端自動(dòng)駕駛方案的核心優(yōu)勢(shì)是大模型強(qiáng)大的學(xué)習(xí)、思考和推理能力,特別是“涌現(xiàn)”能力,而UniAD端到端方案的能力展現(xiàn)需要強(qiáng)大的模型性能、高質(zhì)量數(shù)據(jù)和豐富的算力資源支撐。
在模型性能層面,商湯絕影在2022年底就提出了行業(yè)首個(gè)感知決策一體化自動(dòng)駕駛通用模型,UniAD方案在高質(zhì)量數(shù)據(jù)的驅(qū)動(dòng)下已經(jīng)歷多輪迭代,性能不斷優(yōu)化,處于行業(yè)領(lǐng)先地位。
特斯拉FSD V12版本刪除了30多萬(wàn)行,最終縮減成幾千行,但這個(gè)端到端智駕方案的能力依然強(qiáng)大,并且在不斷成長(zhǎng)。UniAD同樣如此,依靠商湯豐富的模型輕量化部署經(jīng)驗(yàn),2023年下半年開(kāi)始商湯絕影UniAD方案就啟動(dòng)部署上車,并且在豐沛算力和高質(zhì)量數(shù)據(jù)的支持下持續(xù)快速迭代和成長(zhǎng)。
不止如此,特斯拉FSD V12等一體化端到端方案是基于一個(gè)不可解耦的模型打造,UniAD是將多個(gè)模塊整合到一個(gè)端到端模型架構(gòu)之下,仍可以對(duì)各個(gè)模塊進(jìn)行分別的監(jiān)測(cè)和優(yōu)化,相較于純黑盒的端到端技術(shù),UniAD方案具有更強(qiáng)的可解釋性、安全性與持續(xù)迭代性。
在數(shù)據(jù)層面,端到端自動(dòng)駕駛的訓(xùn)練需要高質(zhì)量視頻數(shù)據(jù),主要是各種長(zhǎng)尾場(chǎng)景,如逆行車輛、橫穿的非機(jī)動(dòng)車、“鬼探頭”的行人等,現(xiàn)實(shí)世界中的采集難度很大,現(xiàn)在很多企業(yè)雖然有很多數(shù)據(jù),但是大多是正常行車的低質(zhì)量數(shù)據(jù)。
商湯絕影通過(guò)實(shí)車采集、數(shù)據(jù)管線的清洗篩選能力以及強(qiáng)大的仿真技術(shù),可以通過(guò)添加障礙物等人為創(chuàng)造復(fù)雜場(chǎng)景,為UniAD提供持續(xù)進(jìn)化和商業(yè)化落地的養(yǎng)分。
依靠世界模型,商湯絕影能夠源源不斷地生成自動(dòng)駕駛環(huán)境下更為精細(xì)和復(fù)雜場(chǎng)景視頻數(shù)據(jù),然后用這些數(shù)據(jù)給UniAD進(jìn)行有針對(duì)性的模型訓(xùn)練。比如,世界模型能夠生成人車混行、環(huán)島路口等復(fù)雜城市場(chǎng)景,甚至可以復(fù)刻“8D”城市構(gòu)造。
(商湯大裝置為UniAD的高效訓(xùn)練學(xué)習(xí)和實(shí)車部署提供堅(jiān)實(shí)基礎(chǔ))
在算力層面,商湯從2018年開(kāi)始布局建設(shè)AI基礎(chǔ)設(shè)施,如今,商湯大裝置已經(jīng)布局全國(guó)一體化的智算網(wǎng)絡(luò),總體算力規(guī)模達(dá)12,000 petaFLOPS(每秒千萬(wàn)億次浮點(diǎn)運(yùn)算次數(shù),下稱“P”)。憑商湯大裝置國(guó)內(nèi)領(lǐng)先的算力資源,UniAD自動(dòng)駕駛方案的高效訓(xùn)練學(xué)習(xí)和實(shí)車部署具備堅(jiān)實(shí)的基礎(chǔ)。
DriveAGI:更聰明更強(qiáng)大的端到端已在路上
商湯絕影在北京車展發(fā)布了更聰明更強(qiáng)大的下一代自動(dòng)駕駛技術(shù)——DriveAGI的前瞻預(yù)覽,它是基于多模態(tài)大模型對(duì)端到端智駕方案進(jìn)行改進(jìn)和升級(jí)。
DriveAGI是自動(dòng)駕駛大模型從數(shù)據(jù)驅(qū)動(dòng)向認(rèn)知驅(qū)動(dòng)進(jìn)化,超越司機(jī)的概念,加深其對(duì)于世界的理解能力,具備更強(qiáng)的推理能力、決策能力以及交互能力,是目前自動(dòng)駕駛中最貼近人類思維模式、最能理解人類意圖并有最強(qiáng)解決駕駛困難場(chǎng)景能力的技術(shù)方案,向著完全無(wú)人駕駛邁出重要一步。
(新一代自動(dòng)駕駛大模型DriveAGI:可感知、可交互、可信賴)
不僅如此,DriveAGI是基于多模態(tài)大模型打造,具有強(qiáng)大的交互能力,讓用戶能用在座艙內(nèi)進(jìn)行自然語(yǔ)言指令的交互和駕駛控制,在體驗(yàn)上進(jìn)一步做到可感知、可交互、可信賴。
從UniAD跨越到DriveAGI,商湯絕影一直在引領(lǐng)端到端自動(dòng)駕駛的潮流,但我們不會(huì)止步于此。商湯絕影正在打破智能座艙和智能駕駛兩者的界限,推動(dòng)艙駕一體的架構(gòu)變革,加速智能汽車駛?cè)階GI全新未來(lái)。
來(lái)源:第一電動(dòng)網(wǎng)
作者:蓋世汽車
本文地址:http://www.vlxuusu.cn/news/shichang/228789
以上內(nèi)容轉(zhuǎn)載自蓋世汽車,目的在于傳播更多信息,如有侵僅請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.vlxuusu.cn)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。