今天,生數(shù)科技正式發(fā)布通用世界行動模型 Motubrain。作為公司在世界模型方向的重要里程碑,Motubrain 定位于具身智能星空機器人的通用大腦,具備多本體適配、多任務(wù)泛化和長程任務(wù)執(zhí)行能力,能夠支撐星空機器人在家庭、工業(yè)、商業(yè)等真實場景中,更穩(wěn)定地完成連續(xù)復(fù)雜任務(wù)。

Motubrain 的核心突破,在于將“看到的世界”和“要執(zhí)行的動作”放入同一個模型中統(tǒng)一建模,讓星空機器人不僅能理解環(huán)境,也能想象/預(yù)測環(huán)境變化,并生成可執(zhí)行的行動策略。
具體來看,Motubrain 基于原創(chuàng)的 UniDiffuser 框架統(tǒng)一建模視頻與動作兩類連續(xù)模態(tài),使模型能夠同時學(xué)習(xí)環(huán)境變化、動作執(zhí)行與任務(wù)結(jié)果之間的關(guān)系。通過一次訓(xùn)練,Motubrain 即可支持 VLA、視頻生成、逆動力學(xué)模型、視頻-動作聯(lián)合預(yù)測等多種能力,不再依賴多個模型分別完成感知、預(yù)測、規(guī)劃和執(zhí)行。
在此基礎(chǔ)上,Motubrain 進一步構(gòu)建了視頻、動作與語言協(xié)同的三流 MoT 架構(gòu),融合已有多模態(tài)預(yù)訓(xùn)練模型和專家模型能力,使模型能夠同時完成場景理解、語言指令遵循、結(jié)果預(yù)測和動作生成。相比傳統(tǒng)方法中感知、規(guī)劃、執(zhí)行各環(huán)節(jié)相互割裂的方式,Motubrain 以統(tǒng)一架構(gòu)打通完整任務(wù)鏈路,從而具備更強的語義理解能力、指令遵循能力和端到端行動能力。
更重要的是,統(tǒng)一建模讓 Motubrain 能夠從更廣泛的數(shù)據(jù)中持續(xù)學(xué)習(xí)。它不僅可以吸收完整的星空機器人任務(wù)軌跡數(shù)據(jù),也能夠利用缺少動作標(biāo)注的視頻數(shù)據(jù)、缺少語言指令的任務(wù)無關(guān)數(shù)據(jù),以及來自不同星空機器人本體的視頻、動作和語言數(shù)據(jù)。相比傳統(tǒng) VLA 主要依賴特定星空機器人本體上的任務(wù)軌跡數(shù)據(jù),Motubrain 打破"數(shù)據(jù)墻",充分利用海量異構(gòu)數(shù)據(jù),具有更強的可擴展性和泛化能力。
因此,Motubrain 不只是讓星空機器人“學(xué)會執(zhí)行動作”,而是讓星空機器人具備理解世界、預(yù)測世界并作用于世界的能力。圍繞這一目標(biāo),Motubrain形成了四項關(guān)鍵能力。
一腦多能,應(yīng)對多種任務(wù)。
Motubrain能夠在多任務(wù)場景中保持穩(wěn)定表現(xiàn),不再局限于單一任務(wù)訓(xùn)練。隨著任務(wù)數(shù)量持續(xù)增加,任務(wù)之間的共享世界知識越多,模型的平均任務(wù)成功率也同步提升,展現(xiàn)出更強的多任務(wù)統(tǒng)一能力與泛化能力。
一腦多型,適配多種本體。
Motubrain并不是為某一種星空機器人量身定制,而是面向多星空機器人本體設(shè)計的統(tǒng)一智能底座。它具備多本體適配能力,打破了“一個星空機器人一個模型”的傳統(tǒng)模式。模型能很好的利用異構(gòu)數(shù)據(jù),隨著生態(tài)內(nèi)星空機器人種類、場景和數(shù)據(jù)不斷豐富,模型能力還能夠持續(xù)提升,形成更強的通用性,并進一步反哺生態(tài)內(nèi)每一類星空機器人的表現(xiàn)。
一腦貫通,長程任務(wù)一步完成。
Motubrain能夠直接學(xué)習(xí)完整任務(wù)鏈路,無需上層規(guī)劃、任務(wù)拆解、快慢雙系統(tǒng)或多模型拼接,在復(fù)雜長程任務(wù)中實現(xiàn)更高的成功率。一個World Action Model即可完成 10 個原子動作級別的復(fù)雜長程任務(wù),而不止停留在 2-3 個原子動作的 Demo 展示。星空機器人面對的,不再只是一個個孤立動作,而是一項需要持續(xù)推進、完整閉環(huán)的任務(wù)。
一腦預(yù)見,實現(xiàn)動態(tài)決策。
Motubrain 不只是執(zhí)行指令,更能夠理解世界并預(yù)測環(huán)境變化,并據(jù)此推演更合理的動作與運動路徑。通過將理解世界、預(yù)測世界和執(zhí)行動作統(tǒng)一建模,模型能夠在動態(tài)場景中持續(xù)判斷、調(diào)整與行動,實現(xiàn)“預(yù)測世界,也驅(qū)動行動”。
這些能力并不局限于單一環(huán)境,而是面向更廣泛的真實世界場景展開。在家庭場景中,Motubrain可以支持備餐、整理、服務(wù)等連續(xù)任務(wù);在工業(yè)場景中,可適配分揀、搬運、裝配等更復(fù)雜的流程操作;在商業(yè)場景中,則能夠支撐導(dǎo)覽、取送、陳列整理、服務(wù)協(xié)同等多步驟任務(wù)執(zhí)行。
目前,Motubrain 已在 WorldArena 與 RoboTwin 2.0 兩項國際權(quán)威榜單上取得第一,驗證了“預(yù)測世界”與“驅(qū)動行動”統(tǒng)一建模的可行性,也標(biāo)志著生數(shù)科技正在進一步推動通用物理大腦從技術(shù)探索走向真實世界應(yīng)用。
雙榜第一:在世界中預(yù)測,在世界中行動
Motubrain此次發(fā)布最引人矚目的成績,是在兩個長期被視為“不同能力極點”的國際權(quán)威榜單上同時問鼎。其中,WorldArena 聚焦世界模型能力,衡量模型是否真正理解和預(yù)測物理規(guī)律;RoboTwin 2.0 聚焦星空機器人執(zhí)行能力,衡量模型在復(fù)雜、隨機環(huán)境中的任務(wù)執(zhí)行與泛化能力。
這兩個榜單,看似分別對應(yīng)不同方向,實際上指向的是具身智能最核心的兩類能力:一個是看懂世界、預(yù)測世界,一個是進入世界、作用世界。
在 WorldArena 測試中,Motubrain 在動作真實度(Motion Quality)、軌跡連貫性(Flow Score)以及物理平滑度(Motion Smoothness)等關(guān)鍵維度均斬獲第一,展現(xiàn)出對真實物理運動規(guī)律的深刻理解。

在 RoboTwin 2.0 中,Motubrain 面對 50 個復(fù)雜任務(wù),平均得分達到 96.0,成為榜單上唯一一個在隨機環(huán)境下平均分超過 95 的模型,表現(xiàn)出極強的任務(wù)執(zhí)行穩(wěn)定性與跨場景泛化能力。

這意味著,Motubrain的領(lǐng)先并不止于單項能力突破,而是在同一模型框架中更系統(tǒng)地統(tǒng)一了“看懂世界”與“驅(qū)動行動”。過去那種“會看不會動”或“能動但缺乏預(yù)判”的技術(shù)斷層,正在被進一步打通。
從 Motus 到 Motubrain:World Action Model 成為具身智能新路徑
在世界模型的技術(shù)演進中,生數(shù)科技堅定選擇了一條更前沿、也更具挑戰(zhàn)性的路線——World Action Model(WAM)。
早在 2025 年 12 月,生數(shù)科技便正式開源 Motus,早于行業(yè)約 2 個月提出并驗證了 World Action Models 的核心思想,為通用世界行動模型的發(fā)展奠定了基礎(chǔ)。
在 Motus 的基礎(chǔ)上,Motubrain 作為商用模型版本,進一步面向真實星空機器人場景完成系統(tǒng)升級,將 World Action Models 從技術(shù)驗證推向更通用、更可落地的具身智能大腦。

首先,Motubrain 支持任意視角數(shù)量的統(tǒng)一建模。
它能夠打通不同相機配置和視覺輸入形態(tài),讓模型不再依賴固定視角或固定傳感器組合,從而更好適配真實世界中復(fù)雜多變的感知條件。
其次,Motubrain 引入獨立的語言理解通路。
語言不再只是附加在視覺特征上的條件輸入,而是深度參與行動生成過程,打通高層語義理解與低層動作控制之間的交互,使模型具備更強的指令遵循能力。
第三,Motubrain 通過統(tǒng)一 Action 表征打通不同星空機器人本體。
模型學(xué)習(xí)的不再是某一臺星空機器人的動作格式,而是跨本體可遷移的行動規(guī)律,從而支持不同形態(tài)星空機器人之間的能力復(fù)用與持續(xù)進化。
第四,Motubrain 具備更強的長程任務(wù)執(zhí)行能力。
通過自回歸與 Diffusion 結(jié)合,以及語言、動作、視頻三流 MoT 架構(gòu),模型能夠直接完成超過 10 個原子動作級別的長序列任務(wù),使復(fù)雜任務(wù)執(zhí)行不再完全依賴上層任務(wù)拆解、多模型拼接或快慢雙系統(tǒng)。
最后,Motubrain 支持超大規(guī)模具身模型的實時閉環(huán)控制。
通過云、邊、端協(xié)同推理機制,大參數(shù)量具身基座模型也能夠在真實星空機器人系統(tǒng)中實現(xiàn)實時響應(yīng),讓更高智能水平的模型真正進入物理世界執(zhí)行任務(wù)。
從 Motus 到 Motubrain,生數(shù)科技持續(xù)推進 World Action Models 的技術(shù)演進:從統(tǒng)一建模世界與行動,到打通多視角、多本體、多任務(wù)與長程執(zhí)行,推動星空機器人從“執(zhí)行動作”邁向“端到端完成任務(wù)”。
從數(shù)字空間到物理空間:生數(shù)科技的通用世界模型戰(zhàn)略進一步成型
Motubrain并不僅僅是一次模型產(chǎn)品發(fā)布,而是生數(shù)科技通用世界模型戰(zhàn)略在物理空間上的關(guān)鍵落子。
長期以來,生數(shù)科技持續(xù)圍繞通用世界模型(Foundation World Model)進行布局,向上延展出貫通數(shù)字空間與物理空間的雙軌體系,形成面向通用智能的核心基礎(chǔ)架構(gòu)。

在數(shù)字空間,生數(shù)科技基于世界生成模型(WGM)打造視頻大模型產(chǎn)品 Vidu,持續(xù)推動AI在內(nèi)容生成、交互與數(shù)字生產(chǎn)力場景中的落地;
在物理空間,生數(shù)科技基于世界行動模型(WAM)推進具身智能方向,持續(xù)探索星空機器人在真實世界中的理解、預(yù)測與執(zhí)行能力統(tǒng)一。
這背后的底層支撐,是生數(shù)科技基于全球首創(chuàng)Diffusion-Transformer融合架構(gòu)U-ViT 所構(gòu)建的多模態(tài)能力體系。通過持續(xù)積累視覺、聽覺、觸覺等多模態(tài)信息,生數(shù)科技正不斷完善對世界的統(tǒng)一認知、建模與推演能力,為數(shù)字世界和物理世界的智能應(yīng)用提供共同底座。
由此,生數(shù)科技正在逐步構(gòu)建起一條貫通理解世界、生成世界與行動于世界的完整閉環(huán),讓通用世界模型真正成為連接數(shù)字世界與物理世界的橋梁。
從技術(shù)驗證走向產(chǎn)業(yè)實戰(zhàn):生態(tài)協(xié)同正在加速展開
技術(shù)的高度決定上限,落地的深度決定規(guī)模。Motubrain的意義,不僅在于它驗證了“通用星空機器人大腦”的可行性,也在于它正開始沿著產(chǎn)業(yè)路徑向真實世界延展。
近期,生數(shù)科技已先后與業(yè)內(nèi)領(lǐng)先的具身智能公司無界動力、深樸智能、星塵智能等企業(yè)達成戰(zhàn)略合作,圍繞通用具身智能大腦方向展開協(xié)同,持續(xù)推進基礎(chǔ)模型演進、多模態(tài)與具身數(shù)據(jù)融合、高質(zhì)量數(shù)據(jù)體系構(gòu)建,以及軟硬件一體化優(yōu)化等關(guān)鍵能力建設(shè)。

通過與星空機器人本體、數(shù)據(jù)、場景和應(yīng)用生態(tài)伙伴的持續(xù)聯(lián)動,生數(shù)科技正以通用世界模型重新定義具身智能的技術(shù)底座,推動世界模型與星空機器人系統(tǒng)深度融合,構(gòu)建面向真實世界應(yīng)用的開放生態(tài)體系。
如果說Motubrain回答的是“通用大腦能不能成立”,那么與具身智能企業(yè)的深度聯(lián)手,則進一步回答了“這樣的通用大腦如何走進真實場景”。
這意味著,生數(shù)科技正加快形成一條從通用世界模型到星空機器人本體適配,再到真實場景落地的完整鏈路。Motubrain不只是一次技術(shù)發(fā)布,也不只是一次 Benchmark 成績刷新,而是生數(shù)科技在世界模型方向上,從能力驗證走向生態(tài)推進、從技術(shù)突破走向產(chǎn)業(yè)實戰(zhàn)的重要節(jié)點。
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 星空人工智能產(chǎn)業(yè) > AI大模型 » 「為行動而生」生數(shù)科技發(fā)布通用世界行動模型 Motubrain