近日,大曉機器人公司在上海發布了開悟世界模型3.0。這個開源大模型在研發範式上有所創新,研發團隊將人類與物理世界的互動規律作為核心研究起點,構建了一套“環境式數據採集—世界模型—具身交互”全鏈路技術體系,希望讓具身智能機器人擁有聰明的大腦,不僅能“理解”物理世界的因果規律,還能“生成”長時動靜態交互場景,進而“預測”未來。
大曉機器人由商湯科技聯合創始人、執行董事王曉剛創立。公司首席科學家是澳大利亞科學院院士陶大程,曾任京東探索研究院創始院長、優必選人工智能首席科學家。這家上海企業集聚了來自南洋理工大學、香港大學、香港中文大學的人工智能科學家,致力於推動具身智能實現規模化商業落地。
大曉機器人核心科學家團隊亮相。
“數據始終是ai進化的核心支撐。”王曉剛說,在ai 1.0人工標註時代,出現了包含1400萬張圖像、覆蓋數萬個類別的imagenet數據集。在ai 2.0大語言模型時代,數據規模呈指數級躍升,用於模型預訓練的互聯網文本數據集,如果讓一個人進行原創撰寫,需要約12萬年才能完成。然而進入ai 3.0具身智能時代後,科研人員遇到了數據量級的斷崖式缺口,全球具身智能領域的真機數據量級為10萬小時。這意味着,具身智能研發須另闢蹊徑,才能突破瓶頸。
在他看來,當前具身智能的主流研發範式是“以機器為中心”,其局限在於將機器人本體及其硬件參數置於研發流程的核心。很多企業通過數據採集員的真機遙操,收集各類機器人數據,本質上是讓人去適配和遷就機器的多樣性。這一路徑導致數據採集成本高昂、效率低下,且產出的技能模型與特定硬件綁定,使“智能”被禁錮在一種軀殼內,無法形成通用的認知與適應能力。
針對這些問題,大曉機器人提出了“以人為中心”的研發範式。其核心技術之一是環境式數據採集,即通過跨視角多模態設備,融合視覺、觸覺、語音、力學規律等多維度數據,並通過物理級建模與全場景覆蓋的創新設計,為具身智能模型訓練提供“人—物—場”全要素精準數據支撐。
在此基礎上,公司打造了開悟具身智能世界模型產品平台。它集成了文生世界、像驅世界、跡塑世界等多模態生成能力,覆蓋115個應用場景。開發者輸入簡單指令,就能快速生成可視化的任務模擬內容,還可一鍵分享,降低了具身智能開發門檻。
開悟世界模型有望讓機器人理解物理規律。
發布會上亮相的具身超級大腦模組a1,有雲端交互能力,會實時解析自然語言指令與圖像語義的意圖關係,像人一樣理解複雜的現實世界,生成可執行的中間指令(如“前進50厘米”“繞過障礙”“靠近目標”),再由底層控制器精確執行。裝上這種大腦模組的機器狗,能在複雜環境中完成自主巡檢、跟隨、避障等多種任務,還能根據自然語言指令完成用戶布置的任務。
據悉,開悟世界模型3.0已與沐曦股份、壁仞科技、中科曙光等多家企業的國產芯片完成適配,大幅提升了芯片性能,有望趕超國際頂尖芯片。就像深度搜索與國產芯片適配後形成的全鏈路生態,開悟世界模型3.0與產業鏈夥伴共同構建空間智能生態,形成了從底層算力到上層智能應用的創新合力。
在具身智能本體領域,大曉機器人已攜手智元機器人、銀河通用、鈦虎機器人、國地中心等多家國內頭部企業,打通了世界模型與機器人硬件的適配鏈路,正在共同開發適用於不同場景的解決方案。