作者| 金旺
欄目| 機器人新紀元
2024年3月27日,浙江人形機器人創(chuàng)新中心正式成立,與之一并亮相的,還有領航者1號人形機器人。
浙江人形機器人創(chuàng)新中心坐落于浙江省寧波市,是由寧波市政府與浙江大學智能系統(tǒng)與控制研究所熊蓉教授團隊聯(lián)合組建,為的正是研究人形機器人。
就在前不久,浙江人形機器人創(chuàng)新中心發(fā)布了第二代人形機器人領航者2號,領航者2號也有了一個新的名字,NAVIAI,NAVIAI也是該創(chuàng)新中心首個具備精確技能作業(yè)能力的人形機器人。
相較于一代人形機器人,NAVIAI不僅長大了一號(身高為165cm,體重為60kg),據(jù)官方表示,這代人形機器人還具備了以下四個特點:
全身協(xié)調(diào)穩(wěn)定行走,這代產(chǎn)品突破了非線性模型預測控制和全身運動控制,可以實現(xiàn)更協(xié)調(diào)穩(wěn)定的行走,雙臂自然擺動輔助平衡,并降低了行走著地的聲音;
擬人全身模仿學習,采用隱空間優(yōu)化與融合模型預測控制的動作模仿學習,能夠快速學習新動作,實現(xiàn)高自由度作業(yè)臂連續(xù)動態(tài)運動下穩(wěn)定站立;
類人具身智能導航,采用大模型結合強化學習的決策規(guī)劃框架,兼顧用戶指令理解與開放空間感知,賦予人形機器人智能交互導航能力;
通用高精智能控制,突破了長序列操作任務行為決策與可泛化高精度伺服控制技術,實現(xiàn)了雜亂堆疊場景高效桌面整理與可泛化亞毫米精度軸孔裝配。
在近日開幕的2024世界機器人大會(WRC 2024)上,浙江人形機器人創(chuàng)新中心展出了他們新發(fā)布的人形機器人NAVIAI,他們甚至在展臺模擬零售場景搭建了一個“雜貨鋪”,站在“柜臺”內(nèi)的NAVIAI可以隨時從貨架上取下飲料,遞到“結賬臺”上。
這樣有靈性的人形機器人,也引來了不少圍觀。
而關于這款人形機器人、浙江人形機器人創(chuàng)新中心,以及人形機器人熱鬧的2024年,我們和浙江人形機器人創(chuàng)新中心首席科學家、浙江大學求是特聘教授熊蓉教授進行了一場對話,熊蓉教授告訴了我們她對這些問題的理解。
01 人形機器人的標準化,依然處于初級階段
問:浙江人形機器人創(chuàng)新中心對于人形機器人產(chǎn)業(yè)的價值和意義是什么?
熊蓉:浙江人形機器人創(chuàng)新中心是以人形機器人產(chǎn)品打造為牽引,推動人形機器人技術發(fā)展,同時帶動上游核心零部件供應鏈,并推動人形機器人在下游真實場景落地應用,借由這一方式推動人形機器人產(chǎn)品、技術和產(chǎn)業(yè)生態(tài)發(fā)展。
問:現(xiàn)在人形機器人硬件本體標準化發(fā)展到了怎樣的一個程度?
熊蓉:人形機器人的標準化目前還處于大家剛開始探討的階段,雖然人形機器人已經(jīng)發(fā)展了50年,但在過去50年里,人形機器人一直是研究領域的問題,直到去年才真正進入到了產(chǎn)品化、產(chǎn)業(yè)化初級階段。
現(xiàn)在相關的標委會也都在設立人形機器人的技術標準,推動人形機器人相關標準的建立。
但我覺得這個標準更多包括規(guī)范、應用的輸出,由此帶動技術的發(fā)展,至于說我們是不是要去統(tǒng)一人形機器人的關節(jié),乃至硬件本體,目前還處于一個百花齊放的狀態(tài)。
就像計算機最初都是各家有各家的標準,直到發(fā)展到一定階段,大家才開始做兼容、標準化。
02 大模型用于運動控制,穩(wěn)定性是關鍵
問:浙江人形機器人創(chuàng)新中心剛剛發(fā)布的NAVIAI,在運動控制這一塊用到的是怎樣的控制算法?
熊蓉:我們這次展出的兩臺演示行走的人形機器人,一臺用的是非線性模型預測控制+全身控制,而且我們是基于開源方案做了優(yōu)化和改進,所以可以看到它在走路的時候,它的雙臂和腰會根據(jù)它的步幅和步速自動進行自然的調(diào)整,從而有了這樣一個擬人化行走的形態(tài)。
另外一臺人形機器人,我們是用強化學習方式來進行運動控制。
此外,我們在展臺上還有一臺灰色的人形機器人,它站在屏幕前面,我們在大會期間會讓它做定時的講解功能演示,在講解演示過程中,它整個手臂會連續(xù)動態(tài)地運動。
因為我們這臺人形機器人的手臂具備作業(yè)能力,會有負載要求,每條手臂重6.5公斤,這種連續(xù)動態(tài)運動實際上對人形機器人的穩(wěn)定控制帶來了很大的挑戰(zhàn)。
我們今年3月發(fā)布一代人形機器人時,一代人形機器人的手臂要比二代輕一些,但依然需要通過兩條腿不停地動態(tài)運動來保持身體平衡。這次需要讓機器人始終保持站立狀態(tài),控制空間很小,對控制技術帶來了很大的挑戰(zhàn)。
我們這一代人形機器人能夠?qū)崿F(xiàn)這樣的能力,是將機理控制、模仿學習、強化學習進行了打通,形成了現(xiàn)在的融合控制算法。
此外,我們現(xiàn)在的人形機器人已經(jīng)在展廳講解和工業(yè)場景中的裝配、分揀等技能作業(yè)方面有一些落地應用。
問:運動控制方面,NAVIAI是否有用到了大模型?
熊蓉:我們在交互方面有用到語言大模型,但是視覺的話,我們要保證可靠性、穩(wěn)定性,我們自己有一套三維重構和檢測識別算法。
技能作業(yè)方面,我們用的是自己提出的一套方法構建的技能作業(yè)模型,它是通用的,可以用到各種視覺、力覺伺服控制系統(tǒng)中。
基于這套架構和算法,我們的人形機器人在今年3月已經(jīng)能夠?qū)崿F(xiàn)精準對接,例如將插頭插到插座中,現(xiàn)在用同樣的技術可以拿工具進行打螺絲作業(yè)。
03 人形機器人服務人類,至少還要五年
問:人形機器人要進入家庭場景扮演保姆的角色,難點在哪里?
熊蓉:即使是輪式移動機器人,現(xiàn)在大都是在有一定限定的場景中使用,如果到了一個新環(huán)境里,往往還需要人先對場景進行部署,當人流量較大時,依然會出現(xiàn)執(zhí)行任務失敗的情況。
從操作角度來看,我們?nèi)粘I钪羞@么多物體是否都能準確認知,例如我們讓人形機器人端茶倒水,我們原來認為用大模型是OK的,但真用大模型執(zhí)行這樣的任務時發(fā)現(xiàn),茶壺、公道杯都識別不出來。
所以其實技術都還在一個推進過程中。
問:您覺得人形機器人真正進入我們實際生活中還需要多久?
熊蓉:如果不是兩條腿的話,可能在五年左右會先在商用環(huán)境中從事服務性工作。
問:您認為人形機器人的合理價格區(qū)間應該在一個怎樣的價位段?
熊蓉:如果是家庭場景的話,首先人形機器人要能滿足人類對人形機器人任務性的需求,類似保姆,實際上,保姆行業(yè)在未來社會發(fā)展中會變得越來越貴,我覺得人形機器人的價格可以參照一臺大眾消費得起的車的價格來定義。
問:現(xiàn)在機器人熱潮已經(jīng)在呈現(xiàn)一個收緊的趨勢嗎,從產(chǎn)業(yè)大繁榮進入產(chǎn)業(yè)淘汰賽?
熊蓉:一定會有這樣一個過程,人形機器人產(chǎn)業(yè)也會是由市場讓有技術并且具有產(chǎn)品理念的團隊沉淀下來,將人形機器人最終做扎實。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。
關注智造、硬件、機器人。