Who、How and Why?
這三點,往往是一本偵探推理小說最大的樂趣。小說末尾,作者會問兇手到底是誰,預(yù)測兇手,把整部作品的精彩推向最高潮。
這和智駕大模型的邏輯,是一樣的。推理兇手,需要對整本書有完整的理解,兇手判斷難度越大,故事越精彩,正如預(yù)測下一個Token,內(nèi)容越豐富,信息越多,難度越大,需要上千億參數(shù)的大規(guī)模模型去完成。
上周,《汽車公社》/《C次元》采訪了商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛先生,他以偵探小說作比喻,引出了商湯絕影目前正在攻克的智駕端到端大模型難題。
剛結(jié)束的WAIC 2024世界人工智能大會,商湯絕影攜多款最新智能駕駛和智能座艙產(chǎn)品亮相,這些產(chǎn)品均基于全新發(fā)布的商湯“日日新5.5”原生多模態(tài)大模型打造,同時,商湯絕影在業(yè)內(nèi)率先實現(xiàn)原生多模態(tài)大模型的車端部署。
王曉剛認(rèn)為,端到端大模型是智能駕駛領(lǐng)域的“ChatGPT時刻”,通用能力和涌現(xiàn)能力極強。真正的“端到端”大模型,實現(xiàn)難度很大,商湯絕影正走在難而正確的路上。
真正的“端到端”,究竟難在哪?
一是,演進階段不同。
從感知端到端、兩段式端到端、模塊化端到端到單一神經(jīng)網(wǎng)絡(luò)模型的One Model端到端,難度遞增,不同的企業(yè),選擇從不同的階段切入,雖然都號稱“端到端”,但做到單一端到端的玩家卻極少。
二是,算力部署不同。
車企陣營,特斯拉DOJO智算中心可謂一騎絕塵,預(yù)計到2024年10 月,部署的總算力將達到10萬PFLOPS,智駕供應(yīng)商陣營,商湯算力優(yōu)勢明顯,預(yù)計年底能達到2萬PFLOPS。
三是,工程化能力不同。
對于車載大模型,只有好的技術(shù)和理念,沒有扎實的工程化落地是不行的。和主機廠合作,驗證工程化能力,也是大模型端到端綜合實力的核心要素。
能都做到真正的One Model?算力是否足夠?工程化能力和落地能力如何?這是“端到端”的三個難點,也是智駕供應(yīng)商們待破的“三重門”。如何推開每一扇門,不僅考驗團隊管理層的格局,也考驗團隊研發(fā)的前瞻性思考。
01難而正確的那條路
現(xiàn)階段,特斯拉在內(nèi)的汽車制造商都在探索端到端技術(shù),以此作為智駕技術(shù)的制高點,但根據(jù)輸入到輸出的實現(xiàn)形式,方案和路徑選擇卻各有不同——
在不同的演進階段,端到端從廣義到狹義,可以大致分為感知端到端、決策規(guī)劃模型化、模塊化端到端以及單一模型(One Model) 端到端,越往后,難度越大,能留在牌桌上的玩家也更少。
大部分企業(yè)目前在做的,是把自動駕駛各模塊用神經(jīng)網(wǎng)絡(luò)替代,然后再把神經(jīng)網(wǎng)絡(luò)串聯(lián)起來,進行聯(lián)合優(yōu)化。如兩段式端到端,感知用一個模型,控制決策規(guī)劃用一個模型,和整個能囊括輸入到輸出的單一大模型還有不少差距。
分段式端到端,有天然的短板。
一個,是信息損失。
王曉剛告訴《汽車公社》/《C次元》,分段式端到端的每一個模塊,都會出現(xiàn)大量的信息損失和過濾。“從感知傳到?jīng)Q策規(guī)劃,信息量已經(jīng)是變得非常少了,那么用于做決策規(guī)劃模型的體積,就比感知模型要小幾倍,甚至一個數(shù)量級。”
信息傳遞有過濾和丟失,明面上雖然降低了難度,但也拉低了能力的上限。真正的One Model端到端,難度是非常高的,當(dāng)然天花板也很高。
二是,訓(xùn)練方式差異。
嚴(yán)格意義上講,分段式并非真正的大模型,且訓(xùn)練方式也傳統(tǒng),就算使用了龐大參數(shù),也難以發(fā)揮其效用,和ChatGPT的訓(xùn)練方式有本質(zhì)區(qū)別。
“大模型的能力,不僅在于其規(guī)模,更在于訓(xùn)練方式和任務(wù)?!睂崿F(xiàn)這一點需要強大的基礎(chǔ)設(shè)施能力,如特斯拉擁有10萬塊GPU,大部分主機廠GPU數(shù)量遠不及此,存在2~3個數(shù)量級的差距?!?/span>
“這是被驗證成功的唯一路徑。”
在王曉剛看來,真正的端到端大模型,是通向自動駕駛ChatGPT的一個路徑,且是被驗證成功的唯一路徑。
雖是唯一路徑,并不是每一家主機廠都能把路走通。一方面,訓(xùn)練大模型需長時間積累,耗資巨大,如一次實驗可能需幾千張GPU卡,投入上億,主機廠缺乏此方面的積累。
另一方面,即使主機廠未來嘗試訓(xùn)練大模型,也可能不劃算。商湯這樣的智駕供應(yīng)商,可以通過各行業(yè)分?jǐn)偞竽P统杀?,但主機廠訓(xùn)練的大模型只能自用。除非像特斯拉涉足多行業(yè),否則,少有汽車主機廠能承擔(dān)如此高昂的費用。
02算力,競速大模型的關(guān)鍵
主流的分段式端到端,如果后續(xù)想轉(zhuǎn)成單網(wǎng)式,是有一定難度的。王曉剛認(rèn)為,僅從訓(xùn)練方式看,二者所需要的基礎(chǔ)設(shè)施完全不同。
“ChatGPT級任務(wù),需大量數(shù)據(jù)準(zhǔn)備與清洗,主機廠和部分智駕供應(yīng)商,其現(xiàn)有的GPU總量遠遠不夠?!蔽磥恚紤]到持續(xù)的大規(guī)模投入,通用大模型的競爭者將越來越少。
王曉剛透露,商湯2019年的算力規(guī)模為700 PFLOPS,今年年底原計劃18000 PFLOPS,但從現(xiàn)階段的實際部署看,最終可以達到20000 PFLOPS。
五年間,算力變化非??臁?/span>
王曉剛告訴《汽車公社》/《C次元》,算力是被行業(yè)需求推動的,2022年ChatGPT橫空出世,整個行業(yè)對尺度定律的認(rèn)知、對算力的需求都出現(xiàn)爆發(fā)性的增長,且至今還沒看到增長的盡頭。
“大腦約有860億個神經(jīng)元,每個神經(jīng)元有1000個突觸,累計相當(dāng)于百萬億到千萬億的參數(shù)量級。今天智駕大模型的參數(shù),距離大腦鏈接還是差遠了,尺度定律目前也還沒有飽和,我們還沒看到天花板,讓算力的快速增長提供了可能?!?/span>
沒有算力儲備,談大模型就像空中樓閣,現(xiàn)階段,商湯人工智能超算中心目前有45000塊GPU,峰值算力12000 PFLOPS。
這樣的算力儲備,已遠超國內(nèi)智駕供應(yīng)商,對于商湯來說,面對這樣的算力部署,還需考慮如何充分利用GPU效率——
并不是所有的GPU都必須滿負(fù)荷運轉(zhuǎn),商湯需要設(shè)計合適的調(diào)度方案,讓任務(wù)空閑中的GPU也能利用起來?!耙驗槲覀兊幕鶖?shù)體量大,具備規(guī)?;瘍?yōu)勢,幾萬塊GPU,哪怕是10%-20%的空閑利用率,算下來也是非??捎^的?!?/span>
基于龐大的算力部署,商湯絕影能夠以云側(cè)、端云結(jié)合、端側(cè)等全棧方式靈活部署多模態(tài)大模型,讓商湯原生多模態(tài)能力快速落地智能汽車。
03算力中心=高投入
無論是智算中心,還是大模型,都是高投入的燒錢巨坑,且需長期的積累。商湯從2018年啟動大模型研發(fā),從剛開始,就意識到軟硬件基礎(chǔ)設(shè)施建設(shè)的重要性,后面累計用了6年的時間,做到現(xiàn)在的算力規(guī)模,投入非常龐大。
這引申出另一個話題:大模型時代的供應(yīng)鏈范式。
何小鵬曾提過一個判斷,大模型時代難有Tier1,王曉剛也認(rèn)可這樣的觀點。他分析說,傳統(tǒng)的Tier1集成不同功能模塊,提供給主機廠,但大模型時代,自動駕駛前端和座艙已沒有多模塊訴求了,都在講一體化,合作的模式,也將演變?yōu)橹鳈C廠、芯片廠商和AI廠商三者聯(lián)動。
“特斯拉已經(jīng)擁有10萬塊GPU,但目前很多車廠只有幾百塊、一千塊的規(guī)模,小規(guī)模集群不夠用,倒逼著不斷新集群,更加集中化,去提升效率?!?/span>
考慮到大模型本身是長期投入的過程,車廠獨立構(gòu)建自己的智算中心,去做大模型基礎(chǔ)研發(fā),是難以持續(xù)的。在王曉剛看來,更好的模式是尋找AI公司合作,避免重復(fù)性投入,大家做各自擅長的事。
04工程化能力護城河
智能汽車向大模型的方向發(fā)展,是很有價值的事情,但也是一個長跑的過程。這意味著,能不能伴隨主機廠共同成長,持續(xù)在一條路上長久投入和突破,更是關(guān)鍵。
在商湯絕影的價值觀里,扎實的工程化落地能力,并不亞于大模型研發(fā)的重要性。做智駕和座艙大模型,光有好的技術(shù)和好的理念,沒有扎實的工程化落地是不行的。
商湯絕影脫胎于AI文化,過去幾年深耕汽車行業(yè),通過與主機廠的合作,工程化能力進步很快,這也構(gòu)成了獨一無二的護城河。
一方面,是人才。
王曉剛表示,通過與汽車制造商合作,商湯絕影補入一批汽車行業(yè)的專業(yè)人才,與原有的AI人才融合,補齊工程化能力。
另一方面,是趨勢。
在商湯絕影看來,未來的車載大模型,車端的工程化會逐漸減弱,而后臺的基礎(chǔ)設(shè)施則會變得更重要。
“工程化能力,涵蓋了數(shù)據(jù)的選擇、清洗以及系統(tǒng)的穩(wěn)定性等多個方面,這恰恰是不少車廠和供應(yīng)商目前的短板所在。在大模型時代,我們面臨各方面的新挑戰(zhàn),任何宣稱自己具備工程化能力的企業(yè),都需要踏實下來,明確具體是哪一方面的工程化能力。”
可以肯定的是,人才越來越重要。
王曉剛告訴我們,現(xiàn)階段,推動大模型“上車”的參與方,主要是車廠、高校和科技公司,企業(yè)承擔(dān)了大部分大模型科技成果轉(zhuǎn)化工作。商湯絕影和商湯研究院聯(lián)動,背后也關(guān)系到基礎(chǔ)設(shè)施建設(shè),但訓(xùn)練大模型的專業(yè)化人才,其實幾十個人就夠。
人才也需要自我迭代。
前段時間,蔚來智駕研發(fā)部完成架構(gòu)調(diào)整,此前分為感知、規(guī)控和集成等部分,調(diào)整后,感知和規(guī)控團隊合并為大模型團隊,集成團隊重組為交付團隊。
這意味著,越來越多的車企,將放棄業(yè)界沿用多年的“感知-決策-規(guī)控”技術(shù)路線,更明確地探索端到端大模型實現(xiàn)高階智能駕駛。
“新時代到來,大家都要做好準(zhǔn)。”
王曉剛坦言,他自己是人工智能1.0時代的人,最初的業(yè)務(wù)模式,有智慧城市,也有手機等終端。
“當(dāng)公司面臨大模型轉(zhuǎn)型,做研發(fā)、基礎(chǔ)設(shè)施和數(shù)據(jù)準(zhǔn)備,1.0時代的部門迅速收縮。即使到了2.0時代,市場上有很多精通大模型訓(xùn)練的人才,但本質(zhì)上,這些精英都是靠不斷擁抱變化、不斷自我學(xué)習(xí)進步的,并不是天生就懂大模型?!?/span>
現(xiàn)階段,商湯絕影大部分人力都鋪在大模型業(yè)務(wù),但規(guī)則算法作為智駕的保底,也是需要的,團隊不能完全拋棄現(xiàn)有團隊。一支強大的混合型團隊,才是考驗端到端上車的關(guān)鍵。
而沖破三重障礙的商湯絕影,已經(jīng)為下一輪的角逐做好準(zhǔn)備。
來源:第一電動網(wǎng)
作者:汽車公社
本文地址:http://www.vlxuusu.cn/news/qiye/236913
以上內(nèi)容轉(zhuǎn)載自汽車公社,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)(www.vlxuusu.cn)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。