昔日的華為天才少年“稚暉君”,又站到了聚光燈下。
3月10日,智元機器人正式發(fā)布了全球首個通用具身基座大模型——智元啟元大模型(Genie Operator-1,簡稱GO-1),這標志著具身智能向通用化、開放化、智能化方向快速邁進。
在生成式AI遭遇邊際效益遞減的當下,具身智能正成為AI技術(shù)突破物理世界的關(guān)鍵路徑。該模型通過首創(chuàng)ViLLA架構(gòu),整合多模態(tài)大模型與混合專家系統(tǒng),使機器人僅需千條以內(nèi)的視頻數(shù)據(jù),即可掌握擦拭、倒水等復(fù)雜動作,訓(xùn)練成本驟降。
這項突破不僅實現(xiàn)了“一腦多形”的跨本體遷移能力,更通過持續(xù)進化的數(shù)據(jù)回流系統(tǒng),讓家庭服務(wù)機器人,首次具備了通過日常交互積累物理經(jīng)驗的可能。
“我們公司使命是運用通用機器人來創(chuàng)造無限生產(chǎn)力,機器人只有硬件本體,那肯定是不夠的。將來,AI能力一定是區(qū)分整個機器人產(chǎn)品競爭力的核心環(huán)節(jié)。就像今天的新能源車、手機一樣,硬件供應(yīng)鏈也會高度整合,在最后比拼的一定是AI能力。”智元合伙人、具身業(yè)務(wù)部總裁、研究院執(zhí)行院長姚卯青在當日的溝通會對21世紀經(jīng)濟報道等媒體直言,如果機器人沒有自主作業(yè)能力,價值是非常有限的。
這個大模型已部署到智元研發(fā)的多款機器人本體中。他透露,具身智能的AI研發(fā)是公司的戰(zhàn)略級投入。
截止到目前,智元機器人已完成了天使輪、A輪、A1輪等多輪融資,其創(chuàng)始人“稚暉君”彭志輝于1993年出生,畢業(yè)于電子科技大學(xué)信通學(xué)院。2020年,他以“華為天才少年計劃”加入華為。
2022年離職開啟創(chuàng)業(yè)后,彭志輝創(chuàng)辦的智元機器人已經(jīng)率先在行業(yè)內(nèi)完成了機器人大規(guī)模量產(chǎn),再用百萬級別的數(shù)據(jù),進行大模型自主研發(fā)。姚卯青表示,在五年后的未來,物理AI能夠真正落地家庭場景。隨著模型的不斷升級優(yōu)化,機器人被帶回家后,人們可以自己進行視教,而不是通過數(shù)據(jù)采集。
機器人做家務(wù)可期
讓AI在虛擬世界生成完美圖片容易,但在現(xiàn)實世界中,教機器人穩(wěn)定抓取雞蛋卻很難。因此,當宇樹機器人扭著秧歌在蛇年春晚亮相后,瞬間成為智能硬件新晉頂流。
過去的小模型之所以只能停留在實驗室而無法走到公眾面前,是因為它們無法通過對大規(guī)模圖文和視頻的學(xué)習(xí),來構(gòu)建通用的場景感知和指令理解。
“每一個新場景下的新動作,都需要大量的數(shù)據(jù)學(xué)習(xí),而且成功率不高,不同形態(tài)之間的機器人也無法共享數(shù)據(jù)。”智元具身研究中心常務(wù)主任任廣輝坦言,這種反差揭示了AI發(fā)展的深層矛盾:當數(shù)字世界的智能水平逼近人類時,物理世界的笨拙機械臂仍需要工程師逐行輸入預(yù)設(shè)指令代碼。
這些現(xiàn)實局限,倒逼著機器人領(lǐng)域技術(shù)路線的革新。
智元機器人公布的GO-1基座大模型,展示了突破物理智能瓶頸的全新路徑。這個集成了ViLLA架構(gòu)的4D世界模型,能夠?qū)〞r間在內(nèi)的整個物理世界囊括其中,可以實現(xiàn)小樣本泛化。
任廣輝舉例表示,拿海綿布擦拭有污漬的桌子這一動作,機器人僅需要150條數(shù)據(jù)就能學(xué)會;對于倒水這一相對復(fù)雜的動作,僅需1000條左右,而沒有搭載GO-1模型的機器人,則需要一萬甚至五萬條數(shù)據(jù)。“這就降低了一到兩個數(shù)量級的采集時間和成本。更重要的是,GO-1模型同一套算法可同時應(yīng)用于雙足、輪式、機械臂等不同形態(tài)的機器人。”
從性能來看,GO-1相比已有模型成功率大幅領(lǐng)先,平均成功率提高了32%。經(jīng)實驗發(fā)現(xiàn),在倒水、清理桌面、補充飲料等任務(wù)中表現(xiàn)相對突出。
因此,家庭場景的突破更令人期待。未來,機器人能通過日常交互積累物理經(jīng)驗:當掃地機器人第10次撞到桌腿時,它不再重復(fù)錯誤,而是建立空間記憶模型;照料老人的陪護機器人,則通過長期觀察學(xué)會預(yù)防跌倒的預(yù)判能力。
這種持續(xù)學(xué)習(xí)機制,正在打破服務(wù)機器人“智能不足”的發(fā)展瓶頸。
談及人們普遍關(guān)心的家庭機器人,姚卯青表示機器人進入家庭涉及行業(yè)安全標準,伴隨技術(shù)發(fā)展,從推進到落地需要五年左右的時間,定價估計在三十萬元以上,“學(xué)習(xí)倒咖啡這一個動作,訓(xùn)練軟件的成本可以在萬元之內(nèi)解決,但這并不包含機器人本體的硬件成本。”
物理AI聚焦多場景
物理AI在未來可以覆蓋工業(yè)、商業(yè)、家庭等全方位社會場景,但短期內(nèi),智元會聚焦于工業(yè)場景,并且已有試點項目在工廠落地。
“數(shù)據(jù)是模型的燃料。” 姚卯青強調(diào),數(shù)據(jù)回流系統(tǒng)保證了GO-1模型的“持續(xù)進化”特性。有人工審核參與的數(shù)據(jù)回流系統(tǒng),會把錯誤場景或錯誤動作的數(shù)據(jù)上報,以確保數(shù)據(jù)集的質(zhì)量,后續(xù)再加入到模型訓(xùn)練當中。
一直以來,工業(yè)場景對數(shù)據(jù)的要求較高,在互聯(lián)網(wǎng)上也很難獲取。同時,工業(yè)場景動作成功率對應(yīng)門檻也相對較高。但在工業(yè)方面,對數(shù)據(jù)成本的容忍度也更高,人們更加關(guān)心最終的落地效果。在模型訓(xùn)練時,幾萬條甚至幾十萬條數(shù)據(jù)都是可以接受的程度。
此外,開源生態(tài)建設(shè)也成為破局關(guān)鍵。姚卯青表示,AgiBot World開源項目兩周之內(nèi),一直占據(jù)榜首第一的位置,所獲好評量,遠超Google旗下的類似數(shù)據(jù)集。這種協(xié)作模式大幅降低了行業(yè)合作成本與準入門檻。
“生成式AI 的發(fā)展是有明確的產(chǎn)業(yè)分工的,像數(shù)據(jù)的采集標注、審核甚至是數(shù)據(jù)的交易都有一些平臺性的機構(gòu)出現(xiàn),那么在機器人領(lǐng)域,我認為這也是有機會的。”姚卯青表示,如果每一家都來自己建設(shè)場地、投入設(shè)備,是一個重復(fù)造輪子、重復(fù)投資的行為。長期來看的話,可以由個別的幾家企業(yè)來集中承擔(dān)公共平臺的職責(zé)。
針對近日市場上定價9.9萬機器人所引發(fā)的熱度與討論,姚卯青認為當前階段,機器人領(lǐng)域應(yīng)該以價值為導(dǎo)向,而非低價競爭。“我們對AI研發(fā)的戰(zhàn)略級投入是非常堅定的。智能化今年已經(jīng)開始規(guī)模化量產(chǎn)和交付,相關(guān)研發(fā)投入可以較好地被分攤掉,不會被顯著地轉(zhuǎn)移到終端售價上。”
信達證券認為,AI的發(fā)展從根本上推進了人形機器人和自動駕駛等端側(cè)的發(fā)展。Grok3/o3-mini等模型展示了對物理定律逐步深刻的理解,而Deepseek相關(guān)模型則反映了推理成本的迅速降低。
受此激勵,端側(cè)較高級別的智能落地可期,人形機器人或迎來迅速產(chǎn)業(yè)化。相較于人形機器人,工業(yè)機器人早已在汽車、光伏、物流等多個行業(yè)廣泛應(yīng)用。
國家市場監(jiān)督管理總局數(shù)據(jù)顯示,截至2024年12月底,全國共有45.17萬家智能機器人產(chǎn)業(yè)企業(yè),注冊資本共計64445.57億元,企業(yè)數(shù)量較2020年底增長206.73%,較2023年底增長19.39%,呈穩(wěn)健上揚態(tài)勢。國家統(tǒng)計局數(shù)據(jù)顯示,2024年我國工業(yè)機器人累計產(chǎn)量達到55.6萬套,同比增長14.2%。
不過,當行業(yè)出現(xiàn)井噴之勢,洗牌也會來臨 。而AI+大模型的能力成為下一個競爭的關(guān)鍵環(huán)節(jié)。
姚卯青認為,大模型在機器人行業(yè)的應(yīng)用也會經(jīng)歷一些漸進式的發(fā)展,會從一些較為容易入手、結(jié)構(gòu)化場景較為明確的地方,先去進行落地探索。然后逐漸再演化到一些半結(jié)構(gòu)化和半開放的任務(wù)和場景,最終真正實現(xiàn)通用人工智能AGI在物理世界的應(yīng)用。“可能到那個時候,我們真正能走入千家萬戶,去在家庭中執(zhí)行各類開放式的指令任務(wù)。近兩年,我們還是會去集中看一些工業(yè)、服務(wù)業(yè)在商業(yè)領(lǐng)域的應(yīng)用。”
或許,機器人真正走到我們身邊仍然需要時間,但步伐已經(jīng)在加快,行業(yè)也被拉到前所未有的高度。
對于智元機器人來說,已實現(xiàn)了年均千臺的量產(chǎn)規(guī)模,家庭場景依然是其長期目標。諸如倒茶、制作早餐之類的簡單任務(wù),未來可能只需要幾千元成本即可實現(xiàn)。
“我們用兩年時間,走完了別人可能八年都沒有走完的路,”姚卯青堅定相信,智能化才是機器人的未來,且未來會持續(xù)投入到軟硬件一體化研發(fā)中。