
大模型火了,智能汽車(chē)也火了,兩火相加,會(huì)不會(huì)更旺?
當(dāng)然會(huì)更旺,從OPEN AI火了之后,已經(jīng)有多家車(chē)企宣布要把大模型上車(chē)。
理想汽車(chē)的Mind GPT,華為的盤(pán)古汽車(chē)大模型,百度的文心大模型,廣汽的AI大模型平臺(tái),小鵬汽車(chē)聯(lián)合阿里打造的自動(dòng)駕駛AI智駕中心“扶搖”……
光是今年上半年,就有近十個(gè)大模型宣布上車(chē)。
不同于ChatGPT這種語(yǔ)言類(lèi)大模型,現(xiàn)階段在智能駕駛領(lǐng)域應(yīng)用的主要還是判別類(lèi)大模型,例如BEV和Transformer。
那么大模型上車(chē),難點(diǎn)是什么?未來(lái)又有那些發(fā)展可能?這些問(wèn)題,還是要業(yè)內(nèi)人士才能回答。
在近期的多個(gè)論壇上,來(lái)自車(chē)企和多家自動(dòng)駕駛研發(fā)企業(yè)的負(fù)責(zé)人,就對(duì)上述問(wèn)題進(jìn)行了討論。
01
數(shù)據(jù)、數(shù)據(jù)還是數(shù)據(jù)
打造大模型離不開(kāi)三個(gè)核心關(guān)鍵點(diǎn),數(shù)據(jù)、算力和算法。
大模型的訓(xùn)練需要大量數(shù)據(jù),數(shù)據(jù),高質(zhì)量數(shù)據(jù)才是核心。
科大訊飛股份有限公司的智能汽車(chē)副總經(jīng)理李衛(wèi)兵看來(lái),目前判別式大模型的決策規(guī)劃無(wú)論是基于場(chǎng)景還是基于規(guī)劃,都是基于人類(lèi)的先驗(yàn)知識(shí),很難具有類(lèi)人的自主進(jìn)化,或者說(shuō)自主性比較差。尤其智能駕駛應(yīng)用到城區(qū)以后,挑戰(zhàn)非常大。這里面或許需要新的方法把判別式模型和生成式模型結(jié)合起來(lái)。
在李衛(wèi)兵看來(lái),目前智能駕駛使用的判別式大模型,最讓人頭疼的是長(zhǎng)尾問(wèn)題,也就是高質(zhì)量的數(shù)據(jù)還是不夠。
也就是說(shuō),算力并不是大模型上車(chē)的最大難點(diǎn),反而是被人關(guān)注最少得的數(shù)據(jù)才是關(guān)鍵。
李衛(wèi)兵坦言,未來(lái)競(jìng)爭(zhēng)在數(shù)據(jù),在算力。算力還好搞,就是貴一點(diǎn),高質(zhì)量的數(shù)據(jù)是核心競(jìng)爭(zhēng)力。
毫末智行科技有限公司數(shù)據(jù)智能科學(xué)家賀翔同樣認(rèn)為數(shù)據(jù)是核心競(jìng)爭(zhēng)力,同時(shí)他更加詳細(xì)的對(duì)數(shù)據(jù)競(jìng)爭(zhēng)進(jìn)行了分析。
他認(rèn)為按照目前的技術(shù)手段,想要收集到高精度可用數(shù)據(jù)是比較難,其原因主要有兩個(gè)方面:
一是,實(shí)際情況與理論預(yù)研有區(qū)別。
賀翔認(rèn)為,自動(dòng)駕駛所需數(shù)據(jù)來(lái)自?xún)蓚€(gè)方面,一個(gè)是采集車(chē),還有一個(gè)是量產(chǎn)車(chē)回傳的數(shù)據(jù)。按照設(shè)計(jì)原理,量產(chǎn)車(chē)回傳數(shù)據(jù)邏輯,主要目的不是為了讓我們的模型學(xué)會(huì)怎么開(kāi)車(chē),而是用來(lái)收集BadCase的。
所謂BadCase,就是客戶(hù)認(rèn)為汽車(chē)智駕系統(tǒng)開(kāi)的不好情況,一旦用戶(hù)覺(jué)得智駕系統(tǒng)對(duì)特情處理有誤,客戶(hù)就踩一下剎車(chē),打一下方向盤(pán),這個(gè)時(shí)候就應(yīng)該上傳數(shù)據(jù)用于分析。

但隨著智駕系統(tǒng)的實(shí)際落地,就能發(fā)現(xiàn)傳回來(lái)的數(shù)據(jù)對(duì)我們訓(xùn)練大模型而言肯定是有幫助的,但還是不夠,而這又是為什么?
原因是智駕訓(xùn)練系統(tǒng)所需要的,是一個(gè)老司機(jī)的駕駛動(dòng)作,更確切的說(shuō)是老司機(jī)的預(yù)判,只有老司機(jī)的預(yù)判才是有價(jià)值的。但不是所有的BadCase都是老司機(jī)處理,也可能是新手司機(jī)導(dǎo)致的BadCase,這就導(dǎo)致所采集的數(shù)據(jù)和設(shè)計(jì)目標(biāo)不一致。
這就是目前數(shù)據(jù)采集端的問(wèn)題,很難保證所采集到的數(shù)據(jù)質(zhì)量。但大模型上車(chē)的重要前提,就是有足多,足夠可靠的高質(zhì)量數(shù)據(jù)。

從賀翔的分析不難看出,大模型上車(chē)對(duì)于高質(zhì)量數(shù)據(jù)的需求,遠(yuǎn)勝高算力需求。目前算力遠(yuǎn)沒(méi)有進(jìn)入到瓶頸期,只要肯花錢(qián),可以較為容易得獲得高算力,但高質(zhì)量數(shù)據(jù)并不是一蹴而就,需要時(shí)間與測(cè)試數(shù)據(jù)的積累,是一個(gè)相對(duì)慢的過(guò)程。
第二是數(shù)據(jù)多樣性問(wèn)題。
在賀翔看來(lái),現(xiàn)在國(guó)內(nèi)沒(méi)有哪家企業(yè)數(shù)據(jù)是足夠的,尤其是長(zhǎng)尾數(shù)據(jù)更少。數(shù)據(jù)多樣性、分布不夠的時(shí)候,模型訓(xùn)練的時(shí)候,你想讓它在模型中學(xué)到社會(huì)常識(shí),比如這個(gè)車(chē)往這邊靠的時(shí)候是為了加塞,你要學(xué)這些東西就要有大量的數(shù)據(jù),你會(huì)發(fā)現(xiàn)有的數(shù)據(jù)不夠,怎么辦?
賀翔認(rèn)為,一方面可以借助外部大模型,通過(guò)接入外部的大語(yǔ)言模型,或者是多模態(tài)大模型,通過(guò)一些外部的海量知識(shí),因?yàn)檫@種知識(shí)在大量互聯(lián)網(wǎng)領(lǐng)域里面就已經(jīng)存在了。通過(guò)借用外部大模型幫助智駕駛系了解人類(lèi)社會(huì)的潛在常識(shí),基于這些常識(shí)以及智駕駛系的特點(diǎn),來(lái)做更好的預(yù)測(cè),有了預(yù)測(cè)之后才能做到?jīng)]有地圖能夠像人一樣開(kāi)車(chē),只需要視覺(jué)就能夠把車(chē)開(kāi)得很好。
另一方面還是要不斷積累數(shù)據(jù),尤其是高質(zhì)量的數(shù)據(jù)。
在專(zhuān)家眼中,現(xiàn)階段的核心問(wèn)題還是數(shù)據(jù)量不夠。
02
數(shù)據(jù)共享難度大
就數(shù)據(jù)方面來(lái)說(shuō),單純依靠車(chē)企采集的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。業(yè)內(nèi)想到最直接方法就是建立數(shù)據(jù)聯(lián)盟。
但是在李衛(wèi)兵看來(lái),理想很豐滿(mǎn),現(xiàn)實(shí)很骨感。企業(yè)未來(lái)競(jìng)爭(zhēng)在數(shù)據(jù),高質(zhì)量的數(shù)據(jù)是企業(yè)的核心競(jìng)爭(zhēng)力。讓企業(yè)拿出這些數(shù)據(jù)難度其實(shí)很大。
賀翔想到的問(wèn)題更為現(xiàn)實(shí),技術(shù)上的難度。在賀翔看來(lái),現(xiàn)實(shí)問(wèn)題是數(shù)據(jù)通用程度不高。雖然每家車(chē)企對(duì)都在對(duì)車(chē)輛駕駛進(jìn)行數(shù)據(jù)收集,但不同車(chē)型的數(shù)據(jù)通用程度不太高。賀翔拿長(zhǎng)城自己的情況舉例,長(zhǎng)城有那種內(nèi)部有那種特別小的車(chē)歐拉,也有特別大的坦克500/800,他們之間的數(shù)據(jù)都很難通用,即使內(nèi)部格式是一樣的。
賀翔認(rèn)為,其他車(chē)企的情況應(yīng)該類(lèi)似,車(chē)型之間、車(chē)企之間,不同數(shù)據(jù)的規(guī)格,不同傳感器的規(guī)格,不同傳感器的配置,數(shù)據(jù)即使湊到一起,如何統(tǒng)一接口,統(tǒng)一規(guī)范,統(tǒng)一標(biāo)準(zhǔn)等,這些都是要命的技術(shù)問(wèn)題。統(tǒng)一后,拿到一份標(biāo)準(zhǔn)數(shù)據(jù)之后,我們能不能把這些數(shù)據(jù)有效的用起來(lái),也是一個(gè)很要命的問(wèn)題。
事實(shí)上,業(yè)內(nèi)由企業(yè)在做這樣的事情,例如中汽創(chuàng)智。中汽創(chuàng)智作為一家背靠中國(guó)一汽、東風(fēng)、長(zhǎng)安、國(guó)資委和汽車(chē)工程協(xié)會(huì)的企業(yè),正在推動(dòng)數(shù)據(jù)聯(lián)盟的方式,來(lái)為數(shù)據(jù)建立統(tǒng)一的標(biāo)準(zhǔn),實(shí)現(xiàn)這個(gè)聯(lián)采、聯(lián)標(biāo)。

中汽創(chuàng)智智能駕駛CTO張振林表示,他們正在盡可能統(tǒng)一標(biāo)注、采集的標(biāo)準(zhǔn),包括統(tǒng)一采集車(chē)的配置,包括采集設(shè)備和傳感器的選擇,“我們已經(jīng)內(nèi)部實(shí)現(xiàn)了部分的數(shù)據(jù)的這個(gè)共享和交易。”
張振林也認(rèn)為統(tǒng)一數(shù)據(jù)這件事難度非常大。因?yàn)檫@里面每一家的這個(gè)算法,每一家的傳感器的這些配置,每一家的這個(gè)研發(fā)的階段不一樣,它可能會(huì)有存量數(shù)據(jù)的,還有接下來(lái)的這些量產(chǎn)數(shù)據(jù)都有不相同,這是一件非常非常難的事情,不過(guò)正因?yàn)殡y,才有意義。
03
開(kāi)源有償和虛擬數(shù)據(jù)或是新路徑
北京汽車(chē)研究總院有限公司智能網(wǎng)聯(lián)中心副主任陳新也提出一個(gè)新的思路—開(kāi)源有償。
陳新認(rèn)為,目前現(xiàn)在大家還處于百花爭(zhēng)艷時(shí)期,還沒(méi)到一枝獨(dú)秀的階段,還需要很長(zhǎng)時(shí)間讓大家研究自己的標(biāo)準(zhǔn)。
而且每家車(chē)企都是一個(gè)競(jìng)爭(zhēng)的關(guān)系,不可能把自己高質(zhì)量的數(shù)據(jù),都是花錢(qián)得來(lái)的,采了數(shù)據(jù)還得制作,還得做成數(shù)據(jù)集,尤其是高質(zhì)量的是很難的。
陳新認(rèn)為可行的方式是,車(chē)企可以做自己的一些模型,可以做一些開(kāi)源的但是有償?shù)模覈?guó)內(nèi)頂尖專(zhuān)家做有用數(shù)據(jù)的篩選,可以做一些比賽,包括做一些高質(zhì)量數(shù)據(jù)的獲取,同時(shí)做一些模型的研究。
吉利汽車(chē)研究院技術(shù)規(guī)劃中心主任陳勇則提出,可以嘗試用虛擬數(shù)據(jù)。在陳勇看來(lái),不是所有的語(yǔ)言大模型都是人工標(biāo)注,或是人工生成的,很多虛擬數(shù)據(jù)。自動(dòng)駕駛其實(shí)也可以。
陳勇認(rèn)為,單靠一個(gè)車(chē)企或車(chē)型去采集還是蠻難的。周邊的環(huán)境,包括道路也在不斷的更新,我們的數(shù)據(jù)庫(kù)在不斷更新,十年前采的數(shù)據(jù),現(xiàn)在大部分是沒(méi)什么用的,再過(guò)5年,我們今天采的數(shù)據(jù)還有沒(méi)有用,不一定。模型也好,整個(gè)算法也好,環(huán)境也好,都在發(fā)生變化,這些數(shù)據(jù)如何能夠?;畋ur。

陳勇提出,通過(guò)虛擬場(chǎng)景,比如虛擬仿真、元宇宙建模,用數(shù)字孿生去做這個(gè)事情,模擬各種交通流,各種事故,各種天氣。一方面,靠真實(shí)道路去采集,另一些,通過(guò)虛擬場(chǎng)景做一些生成,用大模型做一些風(fēng)格遷移,這種場(chǎng)景相對(duì)可行,而且能保證數(shù)據(jù)量大的問(wèn)題,做虛擬環(huán)境生成的數(shù)據(jù)量,生成效率還是蠻高的。建一個(gè)千公里一萬(wàn)公里,目前3D虛擬資產(chǎn)做好的話(huà),幾個(gè)小時(shí)就能夠生成,這可能是一條路徑。如果變成虛擬數(shù)據(jù)之后,就可以考慮哪些可以做共享。
在陳勇看來(lái),數(shù)據(jù)目前是限制學(xué)術(shù)發(fā)展的關(guān)鍵因素之一,為了做學(xué)術(shù),為了做更前瞻的研究,企業(yè)之間可以做一些嘗試,做更前瞻的技術(shù)研究,做一些共享。
未來(lái)真的能夠上車(chē)至少要做到4B以下。陳勇認(rèn)為,如果解決某個(gè)其中一個(gè)小的問(wèn)題,可能連1B模型都不需要,模型參數(shù)量的大小還是要看我們?cè)谲?chē)?yán)锩娼鉀Q什么問(wèn)題,場(chǎng)景決定了參數(shù)量的大小,而不是一味的將大模型搬上車(chē),因?yàn)榇竽P统杀疽卜浅8?,?duì)用戶(hù)來(lái)講也不是最經(jīng)濟(jì)的。
陳勇還提出,未來(lái)對(duì)于汽車(chē)行業(yè),智能網(wǎng)聯(lián)汽車(chē)來(lái)講,車(chē)云一體或者車(chē)云協(xié)同應(yīng)該是大的發(fā)展方向。
雖然生成式AI的出現(xiàn),對(duì)智能網(wǎng)聯(lián)汽車(chē)的發(fā)展帶來(lái)了新的機(jī)遇。但通過(guò)上述專(zhuān)家的討論可以看出,大模型真正用在車(chē)上,需要跨越的障礙還有很多,語(yǔ)言類(lèi)的大模型要完整地搬上車(chē)顯然不現(xiàn)實(shí),其算力消耗太過(guò)驚人,成本難以負(fù)擔(dān)。在智能駕駛領(lǐng)域想要通過(guò)大模型進(jìn)行優(yōu)化,難度也很大。
因此,大模型對(duì)智能網(wǎng)聯(lián)汽車(chē)領(lǐng)域的優(yōu)化,也面臨數(shù)據(jù)難題。大模型上車(chē)任重道遠(yuǎn)。
來(lái)源:第一電動(dòng)網(wǎng)
作者:NE時(shí)代
本文地址:http://www.vlxuusu.cn/kol/212150
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。