市場

中國研究人員發(fā)明新型多模態(tài)人工智能框架為自動駕駛汽車帶來類似人類的推理能力

蓋世汽車 2025-12-12 14:52

蓋世汽車訊自動駕駛技術(shù)發(fā)展迅速，已從基于規(guī)則的系統(tǒng)發(fā)展到深度神經(jīng)網(wǎng)絡。然而，端到端模型仍然存在一些重大缺陷：它們通常缺乏對世界的認知，在罕見或模糊的場景下表現(xiàn)不佳，并且對其決策過程的解釋能力有限。相比之下，大語言模型（LLM）擅長推理、理解上下文和解釋復雜的指令。但是，LLM的輸出是語言形式而非可執(zhí)行指令，這使得將其與實際車輛控制系統(tǒng)集成變得困難。這些不足之處凸顯了對一種框架的需求，該框架能夠?qū)⒍嗄B(tài)感知與基于既定駕駛邏輯的結(jié)構(gòu)化、可執(zhí)行的決策輸出相結(jié)合。解決這些挑戰(zhàn)需要深入研究如何將多模態(tài)推理與自動駕駛規(guī)劃器相結(jié)合。

中國研究人員發(fā)明新型多模態(tài)人工智能框架為自動駕駛汽車帶來類似人類的推理能力

圖片來源：期刊《Visual Intelligence》

據(jù)外媒報道，上海交通大學、上海人工智能實驗室、清華大學及合作機構(gòu)的研究團隊開發(fā)了一種用于閉環(huán)自動駕駛的多模態(tài)大型語言模型框架DriveMLM。相關(guān)研究成果已發(fā)表在期刊《Visual Intelligence》上（DOI: 10.1007/s44267-025-00095-w）。

DriveMLM集成了多視角攝像頭圖像、激光雷達點云、系統(tǒng)消息和用戶指令，生成對齊的行為規(guī)劃狀態(tài)。這些狀態(tài)可以直接輸入到現(xiàn)有的運動規(guī)劃模塊，從而實現(xiàn)實時駕駛控制，同時生成對每個決策的自然語言解釋。

來源：第一電動網(wǎng)

作者：蓋世汽車

本文地址：http://www.vlxuusu.cn/news/shichang/280644

返回第一電動網(wǎng)首頁 >

以上內(nèi)容轉(zhuǎn)載自蓋世汽車，目的在于傳播更多信息，如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除，轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)（www.vlxuusu.cn）立場。

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。