當(dāng)前位置 : 中國機(jī)器人峰會(huì) >> 大會(huì)新聞
發(fā)布時(shí)間:2024-04-26發(fā)布人:中國機(jī)器人峰會(huì)
今年3月,一段兩分半鐘的視頻點(diǎn)擊量破百萬。沒有太多花哨的情節(jié),白色背景前,一個(gè)人形機(jī)器人遵照人類指令,遞給對方蘋果,歸置好桌上的杯子和餐碟,并解釋這樣做的原因。
這段視頻來自當(dāng)紅人形機(jī)器人初創(chuàng)公司Figure。成立不過兩年,F(xiàn)igure估值已達(dá)26億美元,其投資人包括微軟、英偉達(dá)、英特爾、貝佐斯等,被戲稱金主覆蓋半個(gè)硅谷。
視頻中,F(xiàn)igure機(jī)器人啟動(dòng)頁面,出現(xiàn)醒目的“powered by OpenAI”。除了自己開發(fā)的神經(jīng)網(wǎng)絡(luò)技術(shù),F(xiàn)igure這款產(chǎn)品背后顯然有OpenAI的生成式AI支撐。
AI讓人形機(jī)器人擁有新的可能。一個(gè)誕生于1950年的概念“具身智能”(Embodied Artificial Intelligence)進(jìn)入人們視野。
在這一概念下,借助大模型,機(jī)器人感知、決策與交互提升,具備更強(qiáng)的自主學(xué)習(xí)能力和環(huán)境適應(yīng)性。機(jī)器人賦予大模型現(xiàn)實(shí)的物理載體,讓曾經(jīng)的虛擬智能走進(jìn)現(xiàn)實(shí)世界。
技術(shù)和現(xiàn)實(shí)的交織足以掀起廣闊的想象,業(yè)界普遍認(rèn)為具身智能將是一個(gè)萬億市場。
最近一系列的行業(yè)進(jìn)展似乎給出了證明:2月份, FigureAI完成6.75億美元融資;3月份,英偉達(dá)發(fā)布人形機(jī)器人通用模型Project GR00T,推動(dòng)機(jī)器人理解自然語言,并觀察人類行為模仿動(dòng)作;同是3月份,斯坦福李飛飛團(tuán)隊(duì)發(fā)布開源“靈巧手”、成本僅2.5萬美元;而在4月16日,波士頓動(dòng)力先是宣布了數(shù)字液壓驅(qū)動(dòng)的雙足人形機(jī)器人Atlas退役,不到12小時(shí)又發(fā)布了代表力量與靈活的全電驅(qū)動(dòng)Atlas 001,展現(xiàn)出腰與脖的全向旋轉(zhuǎn)機(jī)構(gòu)及髖部球形關(guān)節(jié)……
一級市場的機(jī)器人項(xiàng)目投資火熱,二級市場的核心零部件廠商、概念股也風(fēng)起潮涌,人形機(jī)器人公司優(yōu)必選上市后,市值一度超過千億港元。
然而,“機(jī)器人+大模型”落地狂潮中,仍有保持謹(jǐn)慎樂觀的少數(shù)者。北航機(jī)器人研究所名譽(yù)所長、中關(guān)村智友研究院院長王田苗就是其中一員。
90年代初,中國工業(yè)機(jī)器人尚在萌芽期,王田苗已經(jīng)進(jìn)入一個(gè)和移動(dòng)機(jī)器人相關(guān)的國家重大項(xiàng)目組中,研究無人駕駛技術(shù)。30多年過去,王田苗和團(tuán)隊(duì)研發(fā)出國內(nèi)第一款獲得許可證的醫(yī)療機(jī)器人,也成為硬科技領(lǐng)域低調(diào)但不可忽視的創(chuàng)業(yè)導(dǎo)師。
2020年,王田苗聯(lián)合十五位科學(xué)家發(fā)起成立了“智友科學(xué)家基金”, 一如既往,王田苗和團(tuán)隊(duì)希望發(fā)現(xiàn)和培育服務(wù)國家科技戰(zhàn)略的早期硬科技項(xiàng)目。具身智能、機(jī)器人、機(jī)器人上游核心部件正是他關(guān)注的重要領(lǐng)域。
與硬氪交流的一個(gè)多小時(shí)里,王田苗語氣中難掩對具身智能或?qū)⑾破甬a(chǎn)業(yè)變革的興奮。中關(guān)村智友研究院已經(jīng)覆蓋包括高精度RV減速器、全真精密光學(xué)影像系統(tǒng)、力傳感器柔性智能裝備、具身智能AI通用機(jī)器人平臺(tái)等軟硬件方向。
但在行業(yè)沉浮三十多年后,王田苗早已習(xí)慣以冷靜的目光審視狂熱。以Figure發(fā)布的產(chǎn)品為例,“Figure機(jī)器人在視頻中呈現(xiàn)的延遲時(shí)長約為2-3秒,它使用了Pipeline、管道型路線,即自然語言發(fā)送后、機(jī)器人大腦可以理解并生成指令,由指令來控制。當(dāng)接入通用大腦后,其延遲速度約要乘以20倍。” 王田苗告訴硬氪。
具身智能走過半個(gè)多世紀(jì),某一款產(chǎn)品的爆火消弭并不會(huì)落地和商業(yè)化等現(xiàn)實(shí)性問題。一個(gè)溫度驟升的行業(yè)需要這樣的視角,才不至于在蜂擁而入的資本和宏大敘事中迷失。
圍繞具身智能的機(jī)遇與挑戰(zhàn)話題,硬氪對王田苗進(jìn)行了專訪,以下是本次交流(經(jīng)編輯):
有效的機(jī)器人通用基礎(chǔ)模型還未出現(xiàn)
硬氪:對比上一代機(jī)器人技術(shù)路徑,具身智能的革命性體現(xiàn)在哪里?
王田苗:具身智能強(qiáng)調(diào)和追求機(jī)器人泛化及大規(guī)模應(yīng)用。第一,它通過嵌入大模型交互,使機(jī)器人能夠聽懂語言,理解客戶的指示,并讓具身智能體到相應(yīng)的地方進(jìn)行操作。第二是結(jié)構(gòu)化的固定環(huán)境加上感知垂直大模型,能識(shí)別并重建環(huán)節(jié),拓寬機(jī)器人使用的環(huán)境,提高智能化水平。因此,人們期待具身智能即大模型+機(jī)器人能夠?qū)崿F(xiàn)“一腦多機(jī)”或“一腦多型”的爆發(fā)。
硬氪:具身智能真正得到學(xué)術(shù)界、工業(yè)界、金融界重視是在這兩三年。狹義來看,是否可以理解為讓機(jī)器人通過自我學(xué)習(xí)進(jìn)行認(rèn)知和決策,從而完成相應(yīng)的任務(wù)?
王田苗:從大語言模型的發(fā)展開始,我們可以看到語言處理領(lǐng)域的顯著進(jìn)步。傳統(tǒng)的解決方法通常是依賴于知識(shí)圖譜,并結(jié)合人為設(shè)計(jì)的邏輯以及多個(gè)小任務(wù)模型來解決問題。然而隨著技術(shù)不斷進(jìn)步,尤其是AlphaGo在圍棋領(lǐng)域的優(yōu)秀表現(xiàn),以及AlphaZero在蛋白質(zhì)分析方面的突破,人們開始期待用一個(gè)通用模型的訓(xùn)練和微調(diào),來解決所有問題。這也是為什么大模型被視為未來社會(huì)數(shù)字化、智能化、治理化的運(yùn)行底座。
機(jī)器人作為人們改造世界的工具,具身智能概念誕生后,人們開始思考,機(jī)器人領(lǐng)域是不是也能誕生這樣通用大模型。
目前工業(yè)機(jī)器人的裝機(jī)總量約為300萬臺(tái),每年世界60萬臺(tái),中國占總量的一半、是30萬臺(tái)。有這樣一個(gè)“通用大腦”后,就能大規(guī)模、高效率地泛化遷移應(yīng)用,解決許多問題。
硬氪:那這個(gè)機(jī)器人通用模型現(xiàn)在出現(xiàn)了嗎?
王田苗:目前還沒有一個(gè)有效的模型出現(xiàn)。
以實(shí)時(shí)性問題為例。Figure機(jī)器人在視頻中呈現(xiàn)的延遲時(shí)長約為2-3秒,它使用了Pipeline、管道型路線,即自然語言發(fā)送后、機(jī)器人大腦可以理解并生成指令,由指令來控制。當(dāng)接入通用大腦后,其延遲速度約要乘以20倍。
硬氪:有什么解決方案?
王田苗:常見的解決方案是,為不同的任務(wù)設(shè)定多個(gè)小模型,并提供不同的參數(shù)訓(xùn)練,端到端減少推理成本。另外,將專用小GPU芯片置入到機(jī)器人中,也可提高任務(wù)實(shí)時(shí)性,目前特斯拉已在自動(dòng)駕駛中嘗試了這種做法。
硬氪:今年有哪些細(xì)分場景的模型值得關(guān)注?
王田苗:今年3月,李飛飛團(tuán)隊(duì)開發(fā)Behavior-1K,完成了對1000種日常活動(dòng)的定義,并以房屋、花園、餐廳、辦公室等50個(gè)場景為基礎(chǔ),標(biāo)注9000多個(gè)擁有豐富物理和語義屬性的物體。
接著到4月,特斯拉推出多模態(tài)大模型Grok-1.5v,利用端到端高速大模型FSD推理,有望連接數(shù)字世界與物理世界,解決自動(dòng)駕駛邊緣案例的在線迭代學(xué)習(xí)問題。
硬氪:業(yè)界對機(jī)器人「大腦+小腦」路線的關(guān)注度很高。大腦用大模型認(rèn)知智能、人機(jī)交互以及相關(guān)場景的調(diào)動(dòng),小腦實(shí)時(shí)控制機(jī)器人本體,產(chǎn)生靈巧操作,隨著大模型能力提升,是否有可能反哺給小腦,進(jìn)而帶動(dòng)其感知、行為等能力提升?另外有關(guān)技能型勞動(dòng)操作,會(huì)不會(huì)具有專業(yè)小模型,分別實(shí)現(xiàn)高效作業(yè)比如焊工、鉗工、車工、打磨拋光、噴涂、裝配、拆裝等。
王田苗:這個(gè)問題正是目前學(xué)術(shù)界、產(chǎn)業(yè)界所關(guān)注,并且產(chǎn)生爭議的地方。
大腦主要負(fù)責(zé)慢思維與推理,是智力的核心所在;而小腦則關(guān)聯(lián)著對事物的反應(yīng)敏感程度,更多涉及身體的協(xié)調(diào)與運(yùn)動(dòng)的控制。從邏輯上講,人們希望今后機(jī)器人的大腦能越來越聰明、弱化小腦能力,力圖通過大模型得以統(tǒng)一。比如大模型知道什么是蘋果,也知道蘋果可以飽腹,當(dāng)我們向機(jī)器人提問“什么東西能吃”時(shí),機(jī)器人就能自動(dòng)取出一個(gè)蘋果。但要真正實(shí)現(xiàn)它,現(xiàn)階段仍有很多挑戰(zhàn)。
在人類歷史進(jìn)化過程中,人類行為的智能進(jìn)化遠(yuǎn)遠(yuǎn)先于語言智能的進(jìn)化。這可能意味著語言、視覺感知、觸覺感知以及行為等智能在大腦圖譜中并不是同一個(gè)位置,很可能是由不同模型所驅(qū)動(dòng)的。莫拉維克悖論也揭示了這一現(xiàn)象--電腦下棋容易、感知和行動(dòng)智能方面卻面臨挑戰(zhàn),這通常表現(xiàn)為頂層智能的智能程度高、精度差、反應(yīng)慢,而底層智能的智能程度低、精度高、反應(yīng)快。
硬氪:更具體看,還有哪些問題是沒有解決的?
王田苗:首先是如何讓機(jī)器人的“大腦”更聰明。現(xiàn)階段機(jī)器人在解決復(fù)雜環(huán)境感知、動(dòng)作生成、靈巧操作等問題時(shí)存在局限性。盡管大模型增強(qiáng)了其學(xué)習(xí)、語義理解、推理及判斷能力,但在從理解、推理、判斷、執(zhí)行到運(yùn)動(dòng)系列過程中,還涉及其他多種模型算法和軟硬件協(xié)同的問題,包括感知智能模型、行為智能模型以及原有智能控制理論,如MPC模型預(yù)測控制與WBC全身協(xié)調(diào)控制等。
同時(shí),Scaling laws(尺度定律,這一定律表明,模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算浮點(diǎn)數(shù),與模型的性能存在線性相關(guān)。)能否在機(jī)器人基礎(chǔ)大模型中復(fù)現(xiàn)尚未可知,這些技術(shù)的開發(fā)和迭代本身具有難度,再加上周期較長、投入高,短期內(nèi)要突破關(guān)鍵技術(shù)仍面臨著不小的挑戰(zhàn)和風(fēng)險(xiǎn)。
第三是要解決具身智能大模型與硬件的融合、配合問題。人形機(jī)器人的整機(jī)結(jié)構(gòu)復(fù)雜,僅零部件就超過5000個(gè),從理解指令到執(zhí)行任務(wù),都是極大的工程量。
因此有觀點(diǎn)提出,在機(jī)器人的智能層、感知層、動(dòng)作層中分設(shè)Agent,由Agent來調(diào)用工具解決具體問題。
最后就是落地環(huán)節(jié)。機(jī)器人產(chǎn)品化過程需要用時(shí)間來產(chǎn)生并驗(yàn)證價(jià)值,如果說研究具身智能的出發(fā)點(diǎn)是為了降低時(shí)間成本或提升效率,進(jìn)而實(shí)現(xiàn)生產(chǎn)力的飛躍,而非為了取代人類工作,那么基于場景的融合打磨與迭代至關(guān)重要。
硬氪:要實(shí)現(xiàn)專業(yè)和通用,過程中的難點(diǎn)是什么?
王田苗:軟件方面的挑戰(zhàn)主要是真實(shí)、實(shí)用、海量數(shù)據(jù)的產(chǎn)生與訓(xùn)練問題。其中,數(shù)據(jù)收集尤為關(guān)鍵,機(jī)器人所需的數(shù)據(jù)不僅涵蓋互聯(lián)網(wǎng)數(shù)據(jù)和視頻采集數(shù)據(jù),更需要包括眾多物理環(huán)境中的真實(shí)交互數(shù)據(jù),這些模擬生成的數(shù)據(jù)是難以替代的。
此外,數(shù)據(jù)對齊也是一大難題。語言模型能夠?qū)W習(xí)并生成人類能理解的語言,但在機(jī)器人領(lǐng)域,我們面臨著海量未標(biāo)注的異構(gòu)行為大數(shù)據(jù),這使得語義與數(shù)據(jù)的對齊變得異常困難。其中還涉及到語義歧義問題、模型可能產(chǎn)生的幻覺的安全問題,以及標(biāo)準(zhǔn)化測試平臺(tái)和訓(xùn)練完成后安全使用評價(jià)問題等。
另一方面就是效率與成本問題。從仿生機(jī)器人的發(fā)展歷程來看,自1997年日本本田推出的Asimo人形機(jī)器人,到2008年波士頓動(dòng)力的大狗機(jī)器人,再到后續(xù)活蹦亂跳的人形機(jī)器人,甚至從特斯拉人形機(jī)器人到Figure人形機(jī)器人,我們確實(shí)見證了具身智能在大模型、感知、算力等方面有了重大突破。
然而,不能忽視的是,具身智能在結(jié)構(gòu)、驅(qū)動(dòng)、動(dòng)力等真實(shí)能力方面,尚未實(shí)現(xiàn)根本性的突破。其中,行為智能成功成本,與“行為數(shù)據(jù)采樣學(xué)習(xí)次數(shù)”乘以“每一次訓(xùn)練成功的成本”得到的結(jié)果相比,其比值仍然遠(yuǎn)遠(yuǎn)小于1。這導(dǎo)致具身智能的載體性物種在靈巧性、成本性、能源維護(hù)性、使用體驗(yàn)安全性等方面仍存在諸多挑戰(zhàn),距離通用機(jī)器人走向千家萬戶還有距離。
此外,實(shí)時(shí)性和推理速度也是當(dāng)前具身智能面臨的重要問題。目前基于大模型的機(jī)器人控制周期在線決策最快也需要50ms,一般延遲達(dá)1-5秒,這遠(yuǎn)遠(yuǎn)無法滿足目前工業(yè)應(yīng)用中對機(jī)器人要求10ms以下,最好在3ms的要求。
硬氪:在機(jī)器人和AI結(jié)合中,有哪些比較關(guān)鍵的成本?
王田苗:機(jī)器人結(jié)構(gòu)復(fù)雜,核心零部件決定了其精度、穩(wěn)定性、負(fù)荷能力等重要性能指標(biāo),其中技術(shù)難度最高分別是減速器、伺服系統(tǒng)和控制器,占成本的60-70%。加上傳感器等其他零部件,都會(huì)增加機(jī)器人的制造和后期維護(hù)的成本。
此外,為了解決實(shí)時(shí)性問題,需要大量GPU算力與訓(xùn)練的能耗。有研究測算,每個(gè)token(1000 token約為750個(gè)單詞)的訓(xùn)練成本通常約為6N(N為參數(shù)的計(jì)量單位),推理成本約2N,即推理成本相當(dāng)于訓(xùn)練成本的三分之一。
機(jī)器人的三大主導(dǎo)方向
硬氪:面向開放場景的泛化問題,技術(shù)上該怎么解決?
王田苗:從具身智能的體系結(jié)構(gòu)出發(fā),對機(jī)器人下達(dá)拿水杯的指令時(shí),這是意圖;機(jī)器人會(huì)將其分解為具體的運(yùn)動(dòng)步驟,包括視覺范圍內(nèi)看到水杯、接近、拿起,一系列動(dòng)作由感知模型和操作模型協(xié)同完成,當(dāng)機(jī)器人后續(xù)面對多任務(wù)場景時(shí),理想狀態(tài)下它能夠利用先前的經(jīng)驗(yàn)進(jìn)行復(fù)制泛化,減少對編程水平和質(zhì)量要求。
現(xiàn)實(shí)生活中,由于所有的視覺感知都是變化的,人機(jī)交互、任務(wù)規(guī)劃、動(dòng)作軌跡和操作模型需要應(yīng)對突發(fā)性事件,由此也有想法提出,每一層都應(yīng)有一個(gè)具身代理,再根據(jù)特定任務(wù)產(chǎn)出領(lǐng)域大模型。
硬氪:具身智能會(huì)優(yōu)先在哪些場景中落地?
王田苗:從廣義來看,將機(jī)器人和大模型運(yùn)用在社會(huì)上,我堅(jiān)信會(huì)從商務(wù)、工業(yè)、最后再進(jìn)入消費(fèi)環(huán)節(jié)。
其中,商務(wù)場景包括物流(室內(nèi)外與低空)、出租、藥店、超市、清潔、接待等,更容易率先取得突破性進(jìn)展;第二類是工業(yè)與農(nóng)業(yè),工業(yè)包括汽車、核工業(yè)、化學(xué)藥品、醫(yī)院傳染病處置、電池回收拆裝等,農(nóng)業(yè)則包括種植、采摘、分揀、屠宰、上下料、預(yù)制菜、包裝等;最后才是消費(fèi)場景,例如打掃、炒菜、陪護(hù)、養(yǎng)老、打掃房間、護(hù)工保姆等。
硬氪:在產(chǎn)品形態(tài)上是否有創(chuàng)新空間?
王田苗:當(dāng)然。一方面,有工業(yè)界和理性的企業(yè)熱衷于用新技術(shù)、新形態(tài)去探索專業(yè)化的新應(yīng)用,他們注重技術(shù)的實(shí)用性和對專業(yè)領(lǐng)域的適用性,希望通過不斷的技術(shù)創(chuàng)新來推動(dòng)業(yè)務(wù)發(fā)展。
另一方面,大部分學(xué)者或懷揣夢想的創(chuàng)業(yè)者則認(rèn)為通用大模型+人形機(jī)器人是未來的發(fā)展方向,更關(guān)注技術(shù)的前沿性和未來潛力,相信技術(shù)將為人類社會(huì)帶來革命性的影響。
二者有所不同,前者注重應(yīng)用上的創(chuàng)新性,后者是完全顛覆性的創(chuàng)新,兩條路線哪一條率先走通,都離不開市場檢驗(yàn)。我們看到,在物流、清潔、無人出租車等場景中,并沒有人形機(jī)器人的身影,包括焊接、噴涂等環(huán)節(jié)中多有應(yīng)用。市場和供求關(guān)系緊密相關(guān),家庭環(huán)境更關(guān)注其智能化、情感化、安全化,工業(yè)場景更強(qiáng)調(diào)效率、準(zhǔn)確率和成本,場景約束不同,兩類場景會(huì)刺激不同類型的機(jī)器人及其核心零部件創(chuàng)新。
硬氪:如何看待機(jī)器人接下來要重點(diǎn)突破的發(fā)展趨勢?
王田苗:當(dāng)下有三個(gè)主導(dǎo)方向。
第一是攻克核心零部件,包括高動(dòng)態(tài)、高精度、高扭矩的驅(qū)動(dòng)單元,剛?cè)狁詈系男虏牧响`巧手,人工肌肉與電子皮膚,低成本的生物傳感器,上游正向設(shè)計(jì)的電機(jī)或減速器等。
第二是夯實(shí)垂直應(yīng)用并通過出海獲得利潤,特別是面向具有連鎖店或生產(chǎn)服務(wù)屬性的中小微企業(yè),提供服務(wù)應(yīng)用。
第三是擁抱大模型。包括大腦機(jī)器人基礎(chǔ)大模型,具身代理Agents,低功耗專用小模型算力GPU與編譯器,以及生成式數(shù)據(jù)動(dòng)作庫;同時(shí),關(guān)注小腦實(shí)時(shí)技能操作、行為智能控制和實(shí)時(shí)安全評測等方面的技術(shù)進(jìn)展;免編程與安全算法,通用機(jī)器人與人形機(jī)器人應(yīng)用App的開發(fā)也是重要一環(huán);此外,數(shù)據(jù)服務(wù)--垂直模型專用技能數(shù)據(jù)服務(wù)公司,“勞動(dòng)”派遣運(yùn)營服務(wù)公司等也有望成為產(chǎn)業(yè)鏈中不可或缺的一方。相信大模型和機(jī)器人會(huì)是未來大國可持續(xù)競爭力的發(fā)展焦點(diǎn)。
總結(jié)來看,回顧過去的自動(dòng)化終端產(chǎn)品,能達(dá)到萬億規(guī)模的賽道需要同時(shí)滿足三個(gè)要素,分別是市場、產(chǎn)業(yè)鏈和技術(shù)突破,與此同時(shí)還應(yīng)該潛在具有2G、2B、2C的應(yīng)用屬性,機(jī)器人就是這樣理念下的一種重要體現(xiàn)。