12月10日消息,在今年8月份的世界機器人大會(WRC)上,宇樹科技創(chuàng)始人王興興質疑VLA(視覺語言動作模型)的一番言論,引起業(yè)界熱議。
王興興稱,對于當前機器人大火的VLA路線,他持有一定的懷疑態(tài)度,并直言稱“這是一個相對傻瓜式的架構”。
原因是當VLA模型與真實世界交互的時候,背后的數據質量、數量,并不太夠用。
而今日,理想汽車自動駕駛研發(fā)高級副總裁@ 郎咸朋在微博發(fā)長文,回應了此事。
郎咸朋表示,當時沒有提出我的觀點,一是理想VLA司機大模型還沒正式發(fā)布,空口無憑;二是我們對具身機器人行業(yè),還處于密切關注階段。
我跟王興興觀點最不一樣的地方在于,他認為模型架構更重要,但我認為模型的關鍵是要與整個具身智能系統(tǒng)適配,在此基礎上,數據是起決定意義的。
從今年9月VLA正式發(fā)布,到12月6日OTA 8.1的推送,經過兩個月多的“實踐出真知”后,我有兩點心得:第一,VLA就是自動駕駛最好的模型方案,第二,具身智能最終拼的是整體的系統(tǒng)能力。
郎咸朋稱,理想的VLA本質上就是生成式模型,是在用 GPT 的方式做自動駕駛,只不過生成的Token不是文本,而是軌跡和控制信號。
從目前用戶使用的反饋看,在某些場景下理想的VLA已經具備了對物理世界的認知涌現。具體表現是用戶會越來越多的發(fā)現之前端到端沒有的擬人行為。
并且,世界模型更適合做“考場”而不是“考生”,在自動駕駛領域,脫離了海量真實數據談模型架構都是空中樓閣,我們之所以堅持 VLA,是因為我們擁有數百萬輛車構建的數據閉環(huán),這讓我們能在當前算力下,把駕駛水平做到接近人類。
針對具身智能方面,要想做好自動駕駛,必須先把自動駕駛當作完整的具身智能系統(tǒng)對待,每一部分在研發(fā)過程中要相互配合才能將價值發(fā)揮出來。理想的自動駕駛團隊與基座模型、芯片、底盤團隊協(xié)同打造了整個的自動駕駛系統(tǒng)。
同時,模型的關鍵是要與整個具身智能系統(tǒng)適配,在此基礎上,數據是起決定意義的。在機器人領域獲取數據相對困難,但在自動駕駛領域,特別是建立起數據閉環(huán)能力的車企來說并不是大問題。
理想不僅可以從過去幾年積累的10幾億公里的存量數據里進行挖掘和篩選,更可以通過150萬車主的日常使用源源不斷的獲取新的數據。
此外,李想前兩天明確提到,未來五到十年,具身機器人核心將有兩種形態(tài):汽車類的具身機器人、人形類的具身機器人。
理想的VLA不僅服務于現在的理想各類汽車產品形態(tài),也將服務于未來的汽車類具身機器人。(若風)
來源:第一電動網
作者:快科技
本文地址:http://www.vlxuusu.cn/news/qiye/280413
以上內容轉載自快科技,目的在于傳播更多信息,如有侵僅請聯系admin#d1ev.com(#替換成@)刪除,轉載內容并不代表第一電動網(www.vlxuusu.cn)立場。
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。