L3 拐點(diǎn)將至,智能駕駛走向 VLA 分水嶺。
原本統(tǒng)一的「智駕第一陣營(yíng)」分化出兩條道:
理想、小鵬、元戎是一隊(duì),高舉 VLA 大旗,把 VLA 拼命推向前臺(tái);
華為、Momenta、博世、卓馭等玩家卻站在對(duì)立面,給 VLA 毫不留情的潑冷水。
有人將 VLA 視為指路燈的同時(shí),有人也在質(zhì)疑 VLA 能否「發(fā)光」。
從以下三個(gè)問(wèn)題,我們?cè)噲D把關(guān)于 VLA 的爭(zhēng)論點(diǎn)還原清晰:
VLA 能為智駕解決什么問(wèn)題?
VLA 落地還面臨什么挑戰(zhàn)?
VLA 是否是智駕終局的最優(yōu)解?
智能駕駛早已過(guò)了「抄作業(yè)」的時(shí)代。沒(méi)有所謂的標(biāo)準(zhǔn)答案,大家都是在摸著石頭過(guò)河。
智駕當(dāng)下比拼的,已經(jīng)不是單純的技術(shù)路徑分野,而是技術(shù)路徑選擇背后,一場(chǎng)對(duì)于資源分配的策略和定力,比的是技術(shù)價(jià)值觀。
就像理想和元戎堅(jiān)信,VLA 盡管進(jìn)展慢,但上限一定會(huì)比端到端更高。
大家都在押注長(zhǎng)期主義,但誰(shuí)的長(zhǎng)期主義會(huì)先顯驗(yàn),還要時(shí)間給出答案。
01、僅靠端到端,智駕進(jìn)度條只能到 90%
端到端固然是條捷徑,它改寫了底層邏輯,從傳統(tǒng)規(guī)則驅(qū)動(dòng)轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)。
但當(dāng)幾乎所有玩家都上了端到端這艘大船后,才發(fā)現(xiàn),大船還不一定靠得了岸。
端到端兩大缺陷橫亙眼前:
一是車為什么這樣動(dòng),說(shuō)不清楚。
傳統(tǒng)端到端是一個(gè)黑箱,傳感器信號(hào)如何轉(zhuǎn)化為駕駛動(dòng)作難以追溯,無(wú)法給出清晰的決策邏輯。例如車輛突然急剎,原因可能是探測(cè)到行人,也可能是把陰影誤判為障礙物,但系統(tǒng)并不會(huì)告訴你「為什么」。
二是沒(méi)見(jiàn)過(guò)的場(chǎng)景,就不會(huì)了。
端到端完全依賴數(shù)據(jù)驅(qū)動(dòng),沒(méi)見(jiàn)過(guò)的場(chǎng)景往往就不會(huì)處理。尤其在動(dòng)態(tài)突發(fā)情況下,如行人突然橫穿馬路,系統(tǒng)只能依賴過(guò)往類似案例被動(dòng)應(yīng)對(duì),反應(yīng)滯后。此外,模型只能識(shí)別像素級(jí)特征(如紅燈形狀),卻無(wú)法理解語(yǔ)義級(jí)規(guī)則,比如紅燈等于禁止通行。
端到端可以解決智駕 90% 的難題,但剩下的 10%,卻怎么也跨不過(guò)去。
智駕安全顯然不能停留在 90% 的基準(zhǔn)線,要向前推進(jìn),業(yè)內(nèi)普遍的共識(shí)是用規(guī)則兜底,在端到端網(wǎng)絡(luò)之外寫入規(guī)則代碼,教會(huì)系統(tǒng)基本的交通法則,保證合理行駛。
但兜底更像是最后一道防線,面對(duì)錯(cuò)綜復(fù)雜的極端情況,需要更加「治本」的方式。
于是,VLA(視覺(jué)-語(yǔ)言-動(dòng)作大模型)躍入技術(shù)前臺(tái)。
這項(xiàng)技術(shù)最早由谷歌旗下的 DeepMind 提出,其標(biāo)志性成果為機(jī)器人領(lǐng)域的 RT-2 模型,通過(guò)整合視覺(jué)感知、語(yǔ)言推理和動(dòng)作控制,首次實(shí)現(xiàn)了從圖像觀察和文本指令到物理動(dòng)作的端到端控制。
理想、元戎啟行將其引入智駕領(lǐng)域,目的也是借 VLA 能力突破端到端的瓶頸。
VLA 的關(guān)鍵點(diǎn)在于,在「VA(視覺(jué)-動(dòng)作)模式」中間加入了「Language(語(yǔ)言)」這一關(guān)鍵橋梁。
理想智駕負(fù)責(zé)人郎咸朋強(qiáng)調(diào),「L」指代語(yǔ)言學(xué)習(xí)能力,它并不是簡(jiǎn)單的用語(yǔ)言做顯示的文字推理,而是用語(yǔ)言提供的數(shù)據(jù)學(xué)習(xí)做隱式的邏輯推理。
這就好比人與動(dòng)物的區(qū)別,人的視覺(jué)能力、行動(dòng)速度都不如動(dòng)物,但憑借強(qiáng)大的認(rèn)知和理解能力,能夠比動(dòng)物更高一等。
相當(dāng)于,VLA 的核心任務(wù),就是讓系統(tǒng)具備長(zhǎng)「思維鏈」,這落實(shí)到性能體驗(yàn)上,會(huì)帶來(lái)三方面提升。
其一,更全維度的「路牌」理解。
這里的「路牌」不再局限于平面的交通標(biāo)識(shí),而是擴(kuò)展到紅綠燈變化、交警手勢(shì)、施工錐桶等動(dòng)態(tài)三維信息。比如,系統(tǒng)能夠識(shí)別潮汐車道標(biāo)志,在擁堵路段也能順暢變道。
其二,更自然的語(yǔ)音交互。
用戶可以直接通過(guò)語(yǔ)音控制跟車距離、車速等,還能告知系統(tǒng)駕駛偏好。理想的「司機(jī) Agent」甚至能記憶用戶習(xí)慣,用戶曾提示某路段應(yīng)以特定車速行駛,系統(tǒng)在下次經(jīng)過(guò)時(shí)會(huì)主動(dòng)沿用,不用再重復(fù)指令,以此實(shí)現(xiàn)人車共駕。
其三,更前瞻的風(fēng)險(xiǎn)預(yù)判。
系統(tǒng)不再是遇到風(fēng)險(xiǎn)才被動(dòng)響應(yīng),而是能通過(guò)視覺(jué)識(shí)別、語(yǔ)言推理提前感知潛在危險(xiǎn)。比如看到前方路面有積水痕跡,會(huì)預(yù)判「可能存在涉水風(fēng)險(xiǎn)」并主動(dòng)減速等。
VLA 玩家們都相信,VLA 是端到端的 2.0 形態(tài),一個(gè)形象比喻是:
端到端像猴子開(kāi)車,會(huì)模仿人類動(dòng)作,卻缺乏對(duì)物理世界的理解;
VLA 則像司機(jī),甚至教練開(kāi)車,既能理解規(guī)則,又能推理和靈活決策,從「學(xué)行為」進(jìn)化為「懂意圖」。
只不過(guò),現(xiàn)在的 VLA 優(yōu)勢(shì)還并不明顯。
郎咸朋強(qiáng)調(diào),當(dāng)前智駕任務(wù)還比較簡(jiǎn)單,在 L3、L4 階段,智駕作為 Agent 要獨(dú)立完成復(fù)雜任務(wù)時(shí),VLA 才會(huì)獲得碾壓性勝利。
但也正因如此,在「VLA 是否為行業(yè)終局答案」這一問(wèn)題上,始終得打個(gè)問(wèn)號(hào)。
02、VLA 可能還不在神壇上
當(dāng)理想、元戎啟行高舉 VLA 大旗時(shí),迎接它的并不是像「端到端」一般的技術(shù)光環(huán),而是多重質(zhì)疑。
這場(chǎng)由 VLA 引發(fā)的輿論漩渦,一共有三層。
第一層是真假 VLA 之辯。關(guān)鍵角色是小鵬,有意思的是,小鵬早期并未高調(diào)舉起 VLA 大旗,它這張 VLA 玩家的身份牌還是元戎啟行翻開(kāi)的,此前元戎啟行創(chuàng)始人周光表示,任何投入大算力、大參數(shù)模型研發(fā)的玩家,都大概率是 VLA 路線的潛在參與者。這就指向了小鵬。
直到小鵬 G7 Ultra 發(fā)布會(huì)上,小鵬才明確表態(tài),基于 3 顆圖靈芯片與雙激光雷達(dá),小鵬 G7 Ultra 支持全場(chǎng)景 VLA,包括復(fù)雜路口決策、無(wú)車位泊車等功能,并在人機(jī)共駕模式下可以實(shí)現(xiàn)協(xié)同控制。
然而,盡管隸屬于 VLA 陣營(yíng),但小鵬把刀口對(duì)準(zhǔn)的卻是「隊(duì)友」。
何小鵬聲稱,「只有我們做成了真正的 VLA,部分公司做成的是一個(gè)嫁接的 VLA。」
他對(duì)此解釋為,VLA 的落地需要數(shù)十億資金投入。相比端到端,VLA 要處理的是更高維度、非結(jié)構(gòu)化的多模態(tài)信息,再將其轉(zhuǎn)化為駕駛動(dòng)作決策,復(fù)雜度指數(shù)級(jí)提升。用幾個(gè)億只能堆出一個(gè)「微型 VLA」,本質(zhì)上仍停留在端到端邏輯。
一句話,VLA 玩家都必須是資源稟賦型選手,需要技術(shù)先進(jìn),更需要大量資金。
某種程度上,小鵬用「純血 VLA」的角度,揭開(kāi)了 VLA 水面之下的暗角。
這就來(lái)到第二層,VLA 的落地挑戰(zhàn)。博世智能駕控中國(guó)區(qū)總裁吳永橋解釋得很清楚,即 VLA 落地需面臨三大障礙:
多模態(tài)大模型的特征對(duì)齊存在挑戰(zhàn);
多模態(tài)的數(shù)據(jù)獲取和訓(xùn)練十分困難;
當(dāng)前所有的智駕芯片實(shí)際都不支持 VLA 模型。
尤其是第三點(diǎn),吳永橋舉例,VLA 理想化部署需達(dá)到 7B-10B 參數(shù)規(guī)模,但現(xiàn)有智駕芯片帶寬有限。即便是一個(gè) 3B 模型,部署在英偉達(dá) Thor 芯片上,頻率也難以穩(wěn)定維持在 10Hz。
10Hz 意味著系統(tǒng)每秒僅能完成 10 次感知與決策,放在駕駛場(chǎng)景中,就像一個(gè)「時(shí)??◣臋C(jī)器人」。即使決策邏輯正確,但因?yàn)閹挷蛔?、反?yīng)滯后,行車過(guò)程中仍會(huì)頻繁出現(xiàn)延遲和卡頓,無(wú)法帶來(lái)流暢、可靠的駕駛體驗(yàn)。
吳永橋并不否認(rèn) VLA 是個(gè)好方向,包括卓馭副總裁馬陸也認(rèn)同 VLA 可以走通,但難度很大。
馬陸強(qiáng)調(diào),VLA 中的「L」并不是簡(jiǎn)單的語(yǔ)言大模型,不可能直接套用類似「通義千問(wèn)」這樣餓現(xiàn)成模型,而是要從頭開(kāi)始,練成一個(gè)理解智能駕駛的司機(jī)大模型,它需要完整理解物理世界的真實(shí)尺度,這需要資源,也需要時(shí)間。
種種論斷都構(gòu)成一個(gè)基本事實(shí):實(shí)現(xiàn) VLA 并不容易。
而在此基礎(chǔ)上,Momenta 與華為對(duì)這一技術(shù)路徑的審視已經(jīng)來(lái)到第三層,VLA 對(duì)于智駕的真?zhèn)涡浴?/p>
關(guān)于智駕是否有必要走 VLA 這條路,雙方都予以否定。
在 Momenta 創(chuàng)始人曹旭東眼里,VLA 只能算是錦上添花,還不足以扛起 L4、L5 的大任。最直接一點(diǎn),VLA 對(duì)于安全性的提升或許能達(dá)到 5-10 倍,但 L4 規(guī)?;涞匦枰氖?100-1000 倍安全提升,顯然杯水車薪。
華為則堅(jiān)定認(rèn)為,VLA 這一從機(jī)器人領(lǐng)域引入的技術(shù)路徑,并不是為智駕而生。并且,由于 VLA 在空間感知與推理能力上存在天然短板,語(yǔ)言模型與動(dòng)作決策本就難以對(duì)齊。
簡(jiǎn)單而言,VLA 更像是一個(gè)偽命題。
相較之下,華為已經(jīng)找到了新解法,在華為乾崑 ADS 4 上,打造出 WEWA 世界模型架構(gòu),通過(guò)端云結(jié)合的系統(tǒng)訓(xùn)練,行為模型可以直接控制車輛,時(shí)延更低。
華為認(rèn)為,世界模型才是通往智駕終局的正確路徑。
某種程度上,從小鵬、博世、卓馭再到 Momenta、華為,關(guān)于 VLA 的爭(zhēng)論,其實(shí)反應(yīng)出各家差異化的技術(shù)邏輯,大多時(shí)候,技術(shù)路徑無(wú)關(guān)對(duì)錯(cuò),關(guān)乎選擇和資源博弈。
03、把雞蛋放進(jìn)最近的籃子里
過(guò)去一年,端到端熱潮無(wú)疑讓智能駕駛的步子邁得更大,尤其是「車位到車位」的功能落地,不僅重新劃分了「第一梯隊(duì)」入場(chǎng)標(biāo)準(zhǔn),也讓用戶清晰感知到智駕進(jìn)步帶來(lái)的先進(jìn)體驗(yàn)。
然而,「車位到車位」之后,整個(gè)智駕行業(yè)進(jìn)入了「功能停滯」的瓶頸期。
一方面,監(jiān)管給激進(jìn)的智駕宣傳按下暫停鍵,四月份開(kāi)始,工信部、市場(chǎng)監(jiān)管總局出臺(tái)《關(guān)于進(jìn)一步加強(qiáng)智能網(wǎng)聯(lián)汽車產(chǎn)品準(zhǔn)入、召回及軟件在線升級(jí)管理的通知》等系列新規(guī),對(duì)「自動(dòng)駕駛」、「高階智駕」等用語(yǔ)予以禁止,把智駕安全提到絕對(duì)優(yōu)先層面,并規(guī)定車企每一次 OTA 更新,都需經(jīng)過(guò)備案才能上線。
另一方面,L3 級(jí)智能駕駛政策還未放開(kāi),相當(dāng)于,各車企、供應(yīng)商還是停留在智駕體驗(yàn)優(yōu)化層面,給 L2 后綴繼續(xù)添加「+」,用戶能感知到的「利己效益」并不明顯。
這也是 Momenta、卓馭等玩家目前并不看好 VLA 的主要原因,VLA 的確能在用戶體驗(yàn)上「整花活」,比如語(yǔ)音控車、人機(jī)共駕,但大概率不能給智駕帶來(lái)成倍級(jí)的體驗(yàn)革命。
站在 L2+的起點(diǎn)上,智駕行業(yè)每向前走一步,都會(huì)面臨更棘手的難題。越是到攻堅(jiān)期,選擇哪條路就越發(fā)重要,畢竟,任何一條技術(shù)路線背后,都是對(duì)算力、數(shù)據(jù)的巨額消耗。
這也意味著,大家更愿意把雞蛋放進(jìn)最近的籃子里。
一是押注確定性,幾乎所有玩家都堅(jiān)定選擇了強(qiáng)化學(xué)習(xí)、世界模型的技術(shù)路徑,VLA 本質(zhì)上與這兩者也并不沖突,在理想關(guān)于 VLA 的規(guī)劃版圖中,第四階段就是基于世界模型進(jìn)行強(qiáng)化訓(xùn)練,將系統(tǒng)打造成職業(yè)司機(jī)。
二是降低不確定性。智能駕駛的下半場(chǎng),將是一場(chǎng)拼資金、拼技術(shù)、拼成本的拉鋸戰(zhàn)。因此,從有圖,到無(wú)圖,再到端到端路線,大家都是穩(wěn)扎穩(wěn)打走向下一階段,基于各自既定的技術(shù)價(jià)值觀,或者說(shuō),復(fù)用已有的數(shù)據(jù)和算法積累,確定下一步落子位置。
目前位列智駕第一梯隊(duì)的玩家們,可以看出打法各異:
理想、元戎啟行、小鵬選擇押注 VLA。強(qiáng)調(diào)高投入、算力密集型路線,追求 VLA 大模型的上限。
三家也的確通過(guò)資源配置為 VLA 鋪路,像小鵬通過(guò)自研圖靈芯片,算力超過(guò) 750TOPS,并打造出 72B 參數(shù)的基座大模型,為 VLA 大模型提供充裕算力支持;元戎啟行早期就研究 GPT 大語(yǔ)言模型,探索 VLA 方向,并聚焦英偉達(dá) Thor 芯片的上車應(yīng)用;而理想在端到端時(shí)期就乘上了「端到端+VLM」的列車,朝向 VLA 的方向。
另外,理想、小鵬都有自研人形機(jī)器人計(jì)劃,而 VLA 在具身智能與智能駕駛的通用性,也指向了二者對(duì)于 VLA 的長(zhǎng)遠(yuǎn)戰(zhàn)略布局。
而未選擇 VLA 路線的玩家們也是基于自身技術(shù)價(jià)值觀,錨定最優(yōu)解。
華為、地平線強(qiáng)調(diào)結(jié)構(gòu)性解法,走體系化路線。華為憑借云端算力和 AI 大模型基礎(chǔ),構(gòu)建出 WEWA 世界模型,主打「無(wú)弱點(diǎn)」的原生架構(gòu);地平線基于自研高性能計(jì)算平臺(tái)征程 6P,強(qiáng)調(diào)軟硬一體優(yōu)勢(shì),打造出「中國(guó)版 FSD」。
博世主打工程化落地能力,依托全產(chǎn)業(yè)鏈協(xié)同與車規(guī)級(jí)品控經(jīng)驗(yàn),繼續(xù)強(qiáng)化一段式端到端,強(qiáng)調(diào)快速量產(chǎn)能力;
卓馭則是「性價(jià)比」標(biāo)簽,聚焦主流車型需求,通過(guò)精簡(jiǎn)傳感器配置與算法輕量化優(yōu)化,打造高適配性的入門級(jí)方案。
Momenta 繼續(xù)強(qiáng)調(diào)數(shù)據(jù)飛輪,強(qiáng)調(diào)商業(yè)可擴(kuò)展性、成本可控。在「飛輪模式」驅(qū)動(dòng)下,Momenta 將通過(guò)強(qiáng)化學(xué)習(xí)打造出新一代 R6 飛輪大模型。
在技術(shù)演進(jìn)的道路上,每一項(xiàng)決策,都是取自于邊際成本與邊際效益的最優(yōu)計(jì)算結(jié)果。
話說(shuō)回來(lái),智駕行業(yè)上一次這么熱鬧,還是為「純視覺(jué)還是激光雷達(dá)路線」?fàn)幷摬恍?,而?zhēng)論歸于平靜后,大家得到得共識(shí)是,純視覺(jué)也好,激光雷達(dá)也罷,只要能保證絲滑、可靠的智能駕駛,都是可行路線。
VLA 之爭(zhēng)同理,具體用哪種技術(shù)路徑,本就不是行業(yè)該糾結(jié)的落腳點(diǎn)。用戶在真實(shí)道路上能否感受到更平順的行駛質(zhì)感、更可靠的安全保障,遠(yuǎn)比選擇哪種大模型更重要。
今天,能把智駕體驗(yàn)做到極致的玩家,才有機(jī)會(huì)在 L3 起跑時(shí)真正領(lǐng)先。
來(lái)源:第一電動(dòng)網(wǎng)
作者:汽車之心
本文地址:http://www.vlxuusu.cn/kol/274646
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。