賦予人工智能以形體的「具身智能」,正在走紅。
具身智能,這場機器人與人工智能行業(yè)的「雙向奔赴」,讓人們看到了想象中能夠「在家打掃衛(wèi)生、在工廠上班」的高智能機器人開始走入現(xiàn)實。
隨之而來,國內外誕生了一批形態(tài)各異的雙足、雙臂機器人、四足機器狗。
站在聚光燈中心的,首推人形機器人。
那么,人形機器人是不是具身智能最佳載體?
2022 年之后興起的具身智能機器人創(chuàng)業(yè)潮,特斯拉的擎天柱、Figure AI 的 Figure 02 成為人形機器人的典型代表。
這批硅谷創(chuàng)業(yè)者認為,在一個人類改造、創(chuàng)造的世界里,人形機器人是具身智能最佳載體。人形機器人將獲取人類社會數(shù)據(jù),為人服務為目的而出現(xiàn)。
做「人形」還是「非人形」,背后真正決定具身智能機器人賽道選擇的是技術驅動或場景驅動。
肉眼可見的是,「不缺錢」的玩家高舉高打,大多在做人形機器人,是為「技術驅動」;
而更多的是以盡快商業(yè)化為目的的「場景驅動」型玩家,進入了非完整人形(有手、有腳)機器人賽道,比如用技術更成熟、容易落地的「輪式」代替「雙足」;
還有一類是打著人形機器人旗號,為了獲取市場好感度,只是給機器人披上了一層人形外衣,徒有其「表」而無其「實」。
具身智能,成為人形機器人的「試金石」。
無論是「完整、非完整、假完整」人形機器人,智能化程度(大腦+小腦+本體)的高低,是判別機器人「成色」的最佳標準。
人形機器人站在具身智能技術金字塔尖。
具身智能賽道正在推開多模態(tài)大模型技術大門,打造充分利用人類行為數(shù)據(jù)、場景的機器人,釋放出迷人魅力。
1、「非完整」和「完整」人形機器人之爭:為什么國內機器人大多「缺胳膊少腿」?
今年 6 月,北京大學助理教授王鶴掌舵的銀河通用機器人,獲得來自美團等投資機構 7 億元融資,打破了今年的天使輪融資記錄。
與特斯拉等科技巨頭打造的有雙腿、能走路的一類人形機器人不同,銀河通用的產品 Galbot G1 沒有采用「雙足」方案,而是運用可折疊的單腿+輪式底盤。
是否有完整人形,將人形機器人賽道里分出「非完整」和「完整」人形機器人兩大板塊。
(1)、「非完整」人形機器人之「雙臂優(yōu)先」派
以銀河通用為代表的一派認為,研發(fā)雙足耗費巨大成本,不是現(xiàn)階段的重心,目前主要精力應放在雙臂操作能力上。
其中最具影響力的,包括 Open AI 唯二投資的人形機器人之一的 1X,已在北美和挪威推出了輪式機器人 EVE。
明星公司 Sanctuary 在雙足機器人產品經過六七代產品迭代后,宣布放棄「雙足」轉為「輪足」產品。
國內的由騰訊 RobticsX 機器人實驗室前一號員工創(chuàng)辦的星塵智能 S1、清華系的星海圖 R1,以及順為資本投資的颯智智能推出的移動雙臂作業(yè)機器人「白猱」等,下半身均采用了輪式底盤。
即便都在重點發(fā)力上肢的機器人,但這些產品的手指數(shù)量及形態(tài)不一。
比如,銀河通用 G1 有右夾爪+左吸盤組合,星塵智能 S1 采用雙機械臂+二指夾爪,UniX AI Wanda 是三指手,而戴盟機器人的 Sparky 1 配備五指靈巧手。
(2)「非完整」人形機器人之「雙足優(yōu)先」派
與「雙臂優(yōu)先」派相反,更重視移動能力的雙足玩家也有「非完整」一派,先給機器人發(fā)展出了跑、跳運動技能。
對比對應,上肢「五花八門」:
宇樹 H1,雙手為兩個球體;
逐際動力 CL-1 的雙手為兩圓柱、雙足機器人 P1 無上半身/機械臂。
更甚者,小鵬鵬行前總裁創(chuàng)辦的眾擎雙足機器人 SA01,竟然沒有安裝手臂。
(3)「完整」人形機器人派
相比各有側重的企業(yè),這一派則是「全都要」,本體形態(tài)上從雙足到雙臂和智能上的大腦、小腦,被稱為「全尺寸雙足人形機器人」。
「完整」人形機器人產品也是最為矚目、智能化程度最高的,有 Figure AI 的 Figure 02,特斯拉的擎天柱(第二代)等。
「技能點」加滿、一步到位多條技術點并行研發(fā),這一路線國內最具沖勁的是由前「華為天才少年」稚暉君(彭志輝)創(chuàng)立的智元機器人。
智元在一年內收獲 5 輪融資,估值超 70 億,可謂國內吸金最多的人形機器人創(chuàng)業(yè)者。
實際上,一些「非完整」人形機器人甚至不認為它們在做人形機器人,而是冠以「具身智能」機器人。
廣東省具身智能機器人創(chuàng)新中心負責人、深圳市人工智能與機器人研究院常務副院長丁寧認為,人工智能和機器人結合,就是具身智能。
這一定義簡單明了。
一般來說,具身智能(Embodied AI),指的是機器通過感知交互,像人一樣感知周圍環(huán)境變化并作出相應反應,具備敏銳而靈活的感官。
人形或非人形機器人只賦予了機器人以「形」,而具身智能卻亮點了「智」。
對于具身智能產品而言,形態(tài)不是最重要的,關鍵是適應不同形態(tài)的足夠智能的大腦和小腦。
因此,具身智能,也是人形機器人的技術核心。
人形機器人由本體和智能體組成
資料來源:特斯拉官網(wǎng),機器人在線,中金公司研究部
順其自然,具身智能的實現(xiàn)方式,不一定是人形機器人。
星海圖 CEO 高繼揚在一次公開采 訪中提及,機器人現(xiàn)在面對的環(huán)境是人類改造過的社會環(huán)境,人形機器人對于高度特化的任務崗位未必是最合適的。
在他看來,具身智能的未來應該是「一腦多形」。
進入人形機器人更本質的存在——具身智能大腦,出現(xiàn)了一批備受關注的產品。
英偉達的多模態(tài)人形機器人通用基礎模型 Project GR00T,專為人形機器人打造,支撐機器人學習技能、完成任務;
前阿里達摩院機器人實驗室負責人陳俊波博士創(chuàng)辦的有鹿機器人,專注于機器人通用大腦研發(fā),目前,已經獲得超千萬元的具身智能通用大腦 Master2000 的訂單,是具身智能領域商業(yè)化走得快的一家;
上海交通大學計算機科學與工程系教授盧策吾,重點切入具身智能大腦領域,身兼非夕科技聯(lián)合創(chuàng)始人、穹徹智能 CEO。穹徹具身大腦 Noematrix Brain,能夠賦能各種機器人或執(zhí)行體,曾展示過疊衣服和削黃瓜技能;
具身智能大腦另一大優(yōu)勢是價格低廉。
據(jù)報道,相比于 15-20 萬元的硬件本體,協(xié)作機器人的具身機器人大腦的價格只是零頭。
那么,從雙臂、雙足到大腦,決定一家具身智能公司選擇創(chuàng)業(yè)方向的關鍵是什么?
根本上來說,這取決于公司由技術驅動還是場景驅動。
曾任字節(jié)任飛書產品副總裁、人形機器人公司「加速進化」創(chuàng)始人程昊曾表達過他對人形機器人公司商業(yè)化路徑的看法:
「最理想的養(yǎng)活自己方式是,先鍛煉出幾百臺、上千臺的量產能力就行了,積累期先賣給科研機構。產品形態(tài)一直保持通用人形,不需要中途去做垂類專用機,商業(yè)規(guī)模上慢慢擴大?!?/span>
對比起來,那些「不缺錢」的美國硅谷創(chuàng)業(yè)者們(如特斯拉、Open AI),則致力于直接啃下技術高地,甚至不必過多考慮商業(yè)化前景。
「不缺錢」的具身智能公司才做人形機器人,這一現(xiàn)象在國內同樣適用。
融資最多、在資本市場融資多輪走得最遠的,都在做人形機器人,比如:
創(chuàng)業(yè)企業(yè)智元機器人(2023 年 12 月,A3 輪,6 億元),以及老牌機器人廠商優(yōu)必選(2023 年 12 月,IPO)、傅利葉智能(2022 年 1 月,D 輪,4 億元)、樂聚(2023 年 2 月,C 輪)、宇樹科技(2024 年 2 月,B2 輪,10 億元)等。
若要走得遠,「缺錢」的玩家則須適配落地場景,實現(xiàn)小步快跑。
機器人界泰斗王田苗曾表示,面向大 B 端市場的機器人創(chuàng)業(yè)公司來說,第一個要素是場景背后的資源(大廠不僅能投錢,還能提供經驗和數(shù)據(jù))。
比如,小米汽車、美團物流都能為機器人提供場景數(shù)據(jù)。
第二要有產品技術;
第三要能整合資源、融資,「不然(機器人公司)融到 5 億、10 億之后,就融不下去了」。
接受美團融資的銀河通用在場景驅動下,產品主要銷售方向之一是美團的商業(yè)化的場景,其研發(fā)的「移動抓取放置」技術,希望做到在藥房里拿藥,機器人可以替代夜間值班人員,抓藥交給快遞員。
沒有大廠背景的玩家,出貨渠道還是以學校和科研所等科研場景。
人形機器人對大眾形成的情感沖擊力,讓外界知道了具身智能,催生了又一硬科技創(chuàng)業(yè)板塊。
1、「人形」不是具身智能唯一形態(tài),但是最佳落地形態(tài)
文藝復興時期,意大利畫家、科學家達·芬奇在手稿中繪制了世界上的第一款人形機器人,機械感十足。
1973 年,日本早稻田大學的實驗室里走出來世界上第一臺真人大小的人形智能機器人——WABOT-1。
現(xiàn)如今,誕生了智能程度最高的人形機器人,波士頓動力的「Atlas」、特斯拉(TSLA.US)的「擎天柱(Optimus)」和初創(chuàng)公司 Figure 在今年發(fā)布的「Figure 01」。
人形,成為全世界對機器人最完美的想象,并被反復影視化,熱情從未磨滅。
無論智能化程度高低,科技公司推出的機器人普遍希望做出具有親和力的人形外殼。
我們生活的這個世界,由人改造和創(chuàng)造,是為人設計的。人形機器人,也是具身智能最佳落地形態(tài),終極實現(xiàn)目標。
具身智能,正是對人類物理世界的「數(shù)字化」。數(shù)據(jù),決定了人形機器人智能程度的關鍵因素。
ChatGPT 的 AI 大模型,只需要理解語意和人類交互,而具身智能機器人具備運動能力。
不同于 AI 大模型采用的文字、圖像、視頻等數(shù)據(jù)庫訓練數(shù)據(jù),具身智能需要真實人類社會各個場景的數(shù)據(jù)——開門、做飯、清潔等居家場景,或會擰螺絲的工業(yè)場景,進而理解物理世界的運作規(guī)則。
能夠成為具身智能終極形態(tài),一是因為人形機器人能更好地利用人的數(shù)據(jù)來學習;二是具身智能硬件需要在現(xiàn)實場景中鋪開,否則難以獲得大量可靠數(shù)據(jù),「在岸上學不會游泳」。
科學家(廠家)在機器人身上安裝各類傳感器,包括光、聲音、溫度、距離、壓力、定位、接觸等,讓機器人形成「感官刺激」感知外界信息。
特斯拉部署端到端運行的神經網(wǎng)絡,這個神經網(wǎng)絡在為人形機器人 Optimus 打造的嵌入式 FSD 計算機上運行(特斯拉的全自動駕駛系統(tǒng) FSD 直接被應用)。
通過機器人 2D 攝像頭、機載本體感受傳感器的視頻,Optimus 能直接生成關節(jié)控制序列,模仿人類的 78 個關節(jié)進行活動。
為了獲得足夠多真實數(shù)據(jù),特斯拉、Google 都選擇用「遙操」方式采集數(shù)據(jù),即真人戴上一些采集設備(全身運動捕捉設備),捕捉人體全身高精度運動關節(jié)的角度,進而訓練完成機器人要學的多種技能,比如走、跑、跳、抓、拿、放等。
人為演示一個動作大約 50 次之后,機器人才能學會。
人形機器人在真實世界里很難獲得十億量級的數(shù)據(jù),這是因為收集真實數(shù)據(jù)耗費巨大。
Google 做十幾萬條數(shù)據(jù),花去了十多個月時間和大量經費。
為了提升收集數(shù)據(jù)的效率,2023 年 10 月 4 日,谷歌旗下著名 AI 研究機構 DeepMind 發(fā)布全球最大通用大模型之一 RT-X,并開放了訓練數(shù)據(jù)集 Open X-Embodiment。
該訓練數(shù)據(jù)集由全球 33 家頂級學術實驗室合作,整合了 22 種機器人和近 100 萬次試驗數(shù)據(jù)。
此外,也有玩家在通過虛擬合成等形式在降低成本。
銀牛微電子的 3D 空間計算解決方案,以「三維空間多模態(tài)大模型數(shù)據(jù)庫」幫助人形機器人克服觸覺等其他感知的不足,實現(xiàn)低成本、超高精細度的精巧操作能力,「幫助大模型的發(fā)展擺脫對算力和數(shù)據(jù)量的過度依賴」。
具身智能必須進入真實人類生活,與人為伴,才能夠構建在新環(huán)境中的適應能力。現(xiàn)實場景可以幫助機器人更好的完成任務、適應人類社會。
在工廠「打螺絲」也應該進入真實的制造環(huán)境中,收集流水線上的場景數(shù)據(jù)。
還可能有一些意外情況出現(xiàn),比如,當人和人形機器人共處一個場景,人類行為的隨機性也增加了人形機器人「隨機應變」的難度。
對人形機器人來說,關鍵的是數(shù)據(jù)、模型和場景。
基于「大腦」數(shù)據(jù),類似 ChatGPT 的 AI 大模型植入人形機器人,可以理解語意和人類交互,發(fā)展。
而「小腦」讓具身智能機器人都需要運動,也非常多數(shù)據(jù)進行綜合訓練,模仿學習到人類的軌跡。
實際上,人形機器人的落地需要有兩套數(shù)據(jù),滿足物理世界的模型和機器人行為模型。
所以,迄今為止,具身智能因部署成本很高,泛化能力的提升尚有賴于大量部署產品收集數(shù)據(jù)之后的規(guī)模效應。
讓人形機器人在真實場景「歷練」,一次次摔倒、犯錯,直到最終像人一樣站起來完成任務。
這就是具身智能領域對人形機器人的愿景。
3、人形機器人,站在具身智能技術金字塔尖
具身智能技術發(fā)展至今,有兩個最具影響力的事件。
一是 2022 年 11 月,ChatGPT 的問世展現(xiàn)了大型語言模型(LLM)的突破;
二是 2023 年 7 月,谷歌 DeepMind 推出了一款新的機器人模型 Robotics Transformer 2(RT-2),融合了視覺、語言、動作能力的多模態(tài)大模型。
嵌入大型語言模型(LLM)交互后,機器人能夠開始理解人類需求;而多模態(tài)大模型能夠根據(jù)用戶的自然語言指令和環(huán)境的圖像,操控機器人本體完成任務。
多模態(tài)大模型,突破了單一模態(tài)不足以應對復雜場景的限制。從大型語言模型到多模態(tài)大模型,具身智能大腦,初具雛形。
最近在一次行業(yè)論壇上,北航機器人研究所名譽所長、中關村智友研究院院長王田苗指出,目前具身智能創(chuàng)新研究的熱點包括:
大腦、小腦、空間智能、肢體與上游核心部件。
大腦涉及到通用機器人大模型、數(shù)據(jù)模擬器、數(shù)據(jù)制造工廠、端到端算力芯片;
小腦包括運動、空間智能、視覺識別獲取建模理解能力;
肢體有核心零部件研究。
這是一副具身智能研究領域的恢宏圖景,集各項技術于一身的人形機器人,站在具身智能的金字塔尖。
而多模態(tài)大模型,正是具身智能機器人的核心,讓本體機械裝置擁有了智能,成為推動具身智能領域向前發(fā)展的關鍵動力。
國內外最受關注的多模態(tài)大模型技術,包括:
特斯的端到端技術的具身多模態(tài)大模型;
OpenAI 基于 GPT-4o 為 Figure 01 搭建的具身智能 AI 模型;
加州大學伯克利分校推出的融合了硬件本體、運動小腦、決策大腦三部分的 LM Nav。
在國內,各家具身智能創(chuàng)業(yè)者將多模態(tài)大模型朝著標配方向進化。
比如,智元機器人遠征 A1 搭載了自研的 WorkGPT;達闥機器人推出了多模態(tài)大模型 RobotGPT。
值得注意的是,集成多模態(tài)大模型和大型語言模型(LLM),成為初創(chuàng)玩家獲得具身大腦技術的一條捷徑。
國家地方共建人形機器人創(chuàng)新中心打造的「朱雀」具身大腦共集成 3 個大模型(科大訊飛星火大模型、上海人工智能實驗室書生·浦語大模型、上海人工智能實驗室書生·萬象多模態(tài)大模型)。
有行業(yè)觀點認為,在多模態(tài)大模型技術推動下,機器人「大腦」進化速度遠超機器人本體,或將在未來 2 至 3 年內駛入規(guī)?;a業(yè)。
在具身智能領域,「大腦」的技術發(fā)展比上肢領先,上肢比下肢領先。
機器人「大腦」需要準確規(guī)劃任務,而「小腦」則要負責精確的動作執(zhí)行。
目前,「小腦」控制的下肢(雙腿)的運動能力發(fā)展不及「大腦」。
這也回答了一個問題:為什么將具身多模態(tài)大模型,集成于經過數(shù)十年的發(fā)展形成成熟的技術體系和產業(yè)鏈的機械臂技術,主攻「非雙足」的人形機器人路線,有不少擁躉。
具身智能多模態(tài)大模型加上「大腦」,可以率先做出泛化能力較高的具身智能機器人。
具身智能技術仍在早期階段,未來是否人形機器人會占據(jù)主流并未可知。
星塵智能投資方云啟資本合伙人陳昱接受媒體采 訪時表示:
「具身智能的技術路線尚未收斂,有端到端機器學習方案、大模型加強化學習的方案,還有其他方案。在技術早期我們也會多布局不同技術路線的公司,未來技術路線可能也未必收斂,可能每種技術路線都有存在價值,都有可能做出高性價比、高功能的具身智能。」
人們更熟悉的自動駕駛領域的 corner case 問題長期難以解決,特斯拉為代表的企業(yè)在推進端到端神經網(wǎng)絡方式的大模型路線,依賴規(guī)模定律(scaling law)發(fā)展,是否能夠在具身智能領域跑通?
從投資的角度來說,正如李開復不看好具身智能當下的發(fā)展,「我們肯定不能現(xiàn)在去投一個 10 年后才發(fā)生的事」。
作為一項美好愿景,人形機器人許諾了人類「星辰大海」。
人形機器人一旦成熟,可能會比碳基生命——人的能力更厲害,甚至超過人類。
人形機器人或許可以從單智能體到多智能體協(xié)作、機器與人類的協(xié)作,以群體智能完成復雜任務。
而對未來的想象,是推動了人類持續(xù)進行技術探索的動力。
來源:第一電動網(wǎng)
作者:星河頻率
本文地址:http://www.vlxuusu.cn/kol/248000
文中圖片源自互聯(lián)網(wǎng),如有侵權請聯(lián)系admin#d1ev.com(#替換成@)刪除。