蓋世汽車訊 有一天,人們可能希望自己的家用機器人把一大堆臟衣服搬到樓下,并把它們放進(jìn)地下室最左邊角落的洗衣機。機器人需要將指令與它的視覺觀察結(jié)合起來,以確定它應(yīng)該采取什么步驟來完成這項任務(wù)。
(圖片來源:arXiv)
對于人工智能本體(AI agent)來說,這說起來容易做起來難。當(dāng)前方法通常使用多個人工創(chuàng)建的機器學(xué)習(xí)模型來處理各部分任務(wù),基于大量的人力和專業(yè)知識而構(gòu)建。這些方法通過視覺表征(visual representation)來直接做出導(dǎo)航?jīng)Q策,需要大量的視覺數(shù)據(jù)來進(jìn)行訓(xùn)練,而這些數(shù)據(jù)通常很難獲得。
據(jù)外媒報道,為了克服這些挑戰(zhàn),麻省理工學(xué)院(MIT)和MIT-IBM Watson AI實驗室的研究人員設(shè)計了一種導(dǎo)航方法,將視覺表征轉(zhuǎn)換為語言片段,然后將其輸入大語言模型中,該模型可以實現(xiàn)多步導(dǎo)航任務(wù)中的所有部分。
來源:第一電動網(wǎng)
作者:蓋世汽車
本文地址:http://www.vlxuusu.cn/news/shichang/234238
以上內(nèi)容轉(zhuǎn)載自蓋世汽車,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)(www.vlxuusu.cn)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。