幾個(gè)月的時(shí)間,以ChatGPT為代表的大模型飛速躥紅,狂飆迭代,大有席卷各行各業(yè)之勢(shì)。當(dāng)這股熱風(fēng)吹進(jìn)智能駕駛領(lǐng)域,帶來了一些恐慌,也帶來了新的方向。
一個(gè)是在云上滿足泛化性多任務(wù)的語言類模型,一個(gè)是在公共交通環(huán)境下運(yùn)行的智能駕駛系統(tǒng),在智己汽車智駕中心軟件高級(jí)經(jīng)理殷瑋看來,二者是通往AGI(Artificial General Intelligence通用人工智能)雛形的兩條不同路徑,ChatGPT從“云”出發(fā)走向“可信任”,智能駕駛從“端”出發(fā)走向“泛用”。
在通向AGI的路上,它們會(huì)有哪些交集?大模型對(duì)于智能駕駛的發(fā)展有什么指導(dǎo)意義?未來智能駕駛又會(huì)朝著什么方向演進(jìn)?
在2023中國(guó)(亦莊)智能網(wǎng)聯(lián)汽車科技周暨第十屆國(guó)際智能網(wǎng)聯(lián)汽車技術(shù)年會(huì)(CICV2023)上,殷瑋分享了他的思考。
以下根據(jù)殷瑋演講速記整理,略有刪減:
1、大模型和智能駕駛在何處交集?
智己汽車智駕中心軟件高級(jí)經(jīng)理殷瑋
1)感知融合預(yù)測(cè)
ChatGPT和智能駕駛都屬于系統(tǒng)范疇,而任何系統(tǒng)的研究,討論的就是兩個(gè)問題:一個(gè)是泛用性(指一個(gè)模型經(jīng)過訓(xùn)練后,應(yīng)用到新數(shù)據(jù)并做出準(zhǔn)確預(yù)測(cè),實(shí)現(xiàn)廣泛場(chǎng)景覆蓋的能力),一個(gè)是可靠性。通過泛用性來維持自己的不確定性,通過可靠性來維持確定性。
目前,智駕領(lǐng)域從原來只有圖像感知使用模型、其它則使用規(guī)則算法的方式,到現(xiàn)在除了規(guī)控以外,感知融合預(yù)測(cè)已經(jīng)可以全模型化。
研究車端大模型對(duì)于整個(gè)軟件泛化性的控制,對(duì)corner case的處理有非常積極的意義,也是發(fā)展趨勢(shì)。
2)數(shù)據(jù)引擎
數(shù)據(jù)閉環(huán)是ChatGPT和智能駕駛都必不可少的。不過,過去談數(shù)據(jù)閉環(huán),模型的變更還很多,但最近討論的重點(diǎn)變成了看怎么用模型去得到結(jié)果,再用結(jié)果得到模型,循環(huán)套娃。
其實(shí)ChatGPT也類似,從1.0到4.0,整個(gè)數(shù)據(jù)結(jié)構(gòu)就像腦子里的神經(jīng)元,基本結(jié)構(gòu)沒發(fā)生多大變化,只是每次教育改革訓(xùn)練我們腦子的學(xué)習(xí)資料變化很大,讓腦子變得很快。
3)Transformer
Transformer即為GPT的T,在智能駕駛領(lǐng)域里也被廣泛提及。它是一種利用注意力機(jī)制來提高模型訓(xùn)練速度的深度學(xué)習(xí)模型,由編碼和解碼兩部分組成。
智能駕駛系統(tǒng)和大模型在沒有商量的情況下,高度一致地選擇了Transformer,看似巧合,背后卻有一定客觀規(guī)律存在。Transformer對(duì)于時(shí)空邏輯帶有一些因果推理過程,至少當(dāng)前情況下正在統(tǒng)一化整個(gè)智能系統(tǒng)研發(fā)的策略。
智能駕駛系統(tǒng)現(xiàn)在處于一種大編碼器的研發(fā)策略,對(duì)于解碼器的使用還是在研狀態(tài),但是大模型已經(jīng)進(jìn)入到了解碼器階段,這對(duì)于智能駕駛往后做Transformer開發(fā)是有借鑒意義的。
4)多模態(tài)
現(xiàn)在,語言類、文字類的大模型火出圈,圖片類、視頻類、語音類開始流行起來,還沒有出圈的模態(tài)就是行為類的大模型,跟機(jī)器人的結(jié)合。一旦大模型走到行為這一步,就開始跟智能駕駛進(jìn)入統(tǒng)一的討論范疇了。
但是智能駕駛系統(tǒng)的發(fā)展會(huì)有點(diǎn)區(qū)別,現(xiàn)在更多討論的是相機(jī)、激光雷達(dá)等感知的BEV模型,也討論地圖預(yù)測(cè)過程中,怎么用模型來進(jìn)行原來高精度地圖做的一些拓?fù)溆成?,這些對(duì)于智能駕駛的規(guī)劃決策都是輸入。在這個(gè)維度上,語言模型的突破,對(duì)于智能駕駛系統(tǒng)規(guī)劃接下來的發(fā)展,有很強(qiáng)的借鑒意義。
5)平權(quán)
這個(gè)詞最近智能駕駛和大模型都在提,但是兩者平權(quán)邏輯不太一樣。
智能駕駛談平權(quán),大部分都跟降本有關(guān),要保證高迭代情況下還要降本,整個(gè)集中化架構(gòu)要怎么做,還有軟件邊際成本的降低。在適配新車型、新算法、新業(yè)務(wù)狀態(tài)的時(shí)候,要保證軟件的變更最低,模型化對(duì)于這件事情確實(shí)有極大貢獻(xiàn)。
當(dāng)然它也會(huì)帶來新的問題,如果模型輸入源發(fā)生變化,可能帶來成本的極大增加。
但從大模型領(lǐng)域出發(fā),平權(quán)更多談?wù)摰氖撬袡?quán)問題,這么恐怖的生產(chǎn)力掌握在誰手上的問題。
2、在確定性和不確定性之間反復(fù)橫跳
要研究大模型和智能駕駛的工作流狀態(tài),就要理解它們?cè)谔幚矸夯院涂煽啃?/strong>時(shí),都經(jīng)歷了怎樣的過程。
ChatGPT的業(yè)務(wù)天生就是自解釋的,面向多任務(wù)場(chǎng)景,高容錯(cuò)。它的整個(gè)訓(xùn)練過程,從最開始對(duì)數(shù)量要求最大的無監(jiān)督學(xué)習(xí),到結(jié)構(gòu)化的微調(diào)、有監(jiān)督學(xué)習(xí)過程,再到強(qiáng)化學(xué)習(xí),訓(xùn)練完產(chǎn)生的結(jié)果到這個(gè)階段其實(shí)已經(jīng)可以用了。
但是要能真正用于工作流的話,還是要到達(dá)提示詞工程(用AI聽得懂的提示語言,幫助AI高效理解需求,實(shí)現(xiàn)功能)這個(gè)級(jí)別才能發(fā)揮生產(chǎn)力價(jià)值。
ChatGPT整個(gè)發(fā)展過程是從泛化性、高容錯(cuò),轉(zhuǎn)化到一些看上去很像智能汽車的價(jià)值觀,如控制時(shí)延、少算力,增強(qiáng)交互的真實(shí)性、可控性。屬于更強(qiáng)調(diào)不確定性的范式,要求從這個(gè)過程中得到一些答案和新的思考,人只是給到一個(gè)指引,但是不會(huì)去強(qiáng)行控制它的結(jié)果。
但縱觀整個(gè)智能汽車的發(fā)展階段,以及后面想做的事情,其實(shí)是跟ChatGPT是反過來的。
在智能汽車上,一開始無論系統(tǒng)多小,它其實(shí)已經(jīng)是一個(gè)在公共交通環(huán)境下運(yùn)行的機(jī)器人了,關(guān)系到生命安全,因此一定要強(qiáng)調(diào)安全性和可靠性。智能駕駛系統(tǒng)屬于更強(qiáng)調(diào)確定性的范式,一個(gè)模型要先到達(dá)一個(gè)安全系數(shù),再進(jìn)行控制。
兩種方法之間差異非常大,習(xí)慣了確定性做法或習(xí)慣了規(guī)則的人,和習(xí)慣了不確定性做法的人,他們之間可能完全無法相互理解。但智能駕駛系統(tǒng)的實(shí)現(xiàn)過程,就是在確定性和不確定性之間反復(fù)橫跳的過程。
確定性的工作流,它在產(chǎn)品里最大的作用是確保短期的產(chǎn)品質(zhì)量,為量產(chǎn)兜底,同時(shí),也為不確定性的工作流提供了“差異識(shí)別”的能力。有一個(gè)確定性的方法或者安全系統(tǒng),控制邊界,給深度學(xué)習(xí)一點(diǎn)空間,這是量產(chǎn)比較好操作的方案。
不確定性的工作流,對(duì)產(chǎn)品的長(zhǎng)期迭代有很深的影響,能幫助確定性工作流提升效率,緩解壓力。
這種在確定性和不確定性之間的反復(fù)橫跳是一種螺旋式上升,兩者的變化會(huì)帶來對(duì)智能駕駛系統(tǒng)認(rèn)知維度的躍遷。
3、未來跳向何方?
ChatGPT在用戶中有很高的付費(fèi)意愿,產(chǎn)品迭代也很快,而智能駕駛商業(yè)化落地相比之下就慢多了,也導(dǎo)致很多資本從智能駕駛涌入ChatGPT。
兩者在發(fā)展軌跡上注定是不同的,雖然都要走向廣泛信任的終點(diǎn),但以ChatGPT為代表的AIGC經(jīng)歷的是從廣泛到廣泛信任,智能駕駛經(jīng)歷的則是從信任到廣泛信任。
雖然AIGC在這段時(shí)間的爆發(fā)異常迅猛,從語言,到多模態(tài),到專業(yè)領(lǐng)域的定制化,到很多工具的調(diào)用,再到最后機(jī)器人的介入,速度會(huì)非???,但AIGC的發(fā)展速度也不會(huì)一直這么快,總有慢下來的一天。
它會(huì)在什么時(shí)候慢下來?會(huì)在面臨一些跟智能駕駛同樣問題的時(shí)候慢下來。當(dāng)進(jìn)入到一些高敏感領(lǐng)域決策的問題,比如在一些機(jī)器人進(jìn)入到公共安全領(lǐng)域時(shí),它肯定會(huì)慢下來。
ChatGPT和智能駕駛之間,可能會(huì)經(jīng)歷三個(gè)階段。
第一個(gè)階段是恐慌,就是現(xiàn)在的感覺。
第二個(gè)階段,LLM(大語言模型)類業(yè)務(wù)會(huì)開始指導(dǎo)智能駕駛的工程師實(shí)踐,現(xiàn)在智能駕駛很多工作流也是朝這個(gè)方向去做,從萬物感知,到預(yù)測(cè)、規(guī)劃,到自解釋的過程。
越往后會(huì)發(fā)現(xiàn)ChatGPT和智能駕駛在做的研究越像,很多時(shí)候會(huì)成為一些共性的問題。雖然現(xiàn)在的差距從工程上來說還比較大,兩者聯(lián)系并沒有那么密切,但是未來這種趨勢(shì)會(huì)變得越來越明顯。最后,肯定會(huì)朝著AGI共同目標(biāo)驅(qū)同演進(jìn)。
來源:第一電動(dòng)網(wǎng)
作者:智車星球
本文地址:http://www.vlxuusu.cn/kol/204052
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。