當前位置：首頁 > 新聞資訊 > 行業動態 > 具身大模型：人形機器人智慧內核,主流框架為分層式與端到端式,VR遙操作采集、機械臂主從控制采集、數據手套遙操作

具身大模型：人形機器人智慧內核,主流框架為分層式與端到端式,VR遙操作采集、機械臂主從控制采集、數據手套遙操作

來源：興業證券編輯：創澤時間：2026/4/20 主題：其他 [加盟]

具身大模型是人形機器人的“大腦”,主導“感知-認知-控制”交互閉環。傳統大模型專注于單一或少數模態的任務處理，缺乏與物理世界直接交互的能力。具身大模型作為人形機器人的“大腦”,從“感知-認知-控制”層面賦能機器人，強調與物理世界的交互，需具備多模態感知、自主決策、實時交互執行、通用與泛化等能力。

人形機器人目前尚未實現大規模應用，主要原因或非硬件能力不足，而是大模型存在瓶頸。從產業進程來看，當前機器人肢體層技術已較為成熟，而大模型的發展遠落后于硬件。當前階段的具身大模型已具備認知、推理與規劃能力，不足之處在于難以可靠處理復雜物理世界的不確定性，同時泛化能力明顯較弱。

具身大模型主流框架為分層式與端到端式，路徑尚未收斂。傳統決策采用分層架構，包括感知與互動、高層規劃、低層執行以及反饋與增強，通過大小腦分層，人形機器人更容易落地，但分層范式存在錯誤累積的問題，且在跨多樣任務泛化時表現不佳。端到端框架基于感知環境和機器人狀態直接輸出具體的機器人執行命令，將感知、語言理解、規劃、動作執行和反饋優化集成到一個統一的框架中，具備高集成度與較強泛化能力，VLA模型是端到端決策的核心。

海外具身大模型：1)典型的完全端到端架構具身大模型包括谷歌DeepMindRT-2 與特斯拉FSD。RT-2 致力于通過端到端的神經網絡將視覺和語言信息直接映射為機器人動作；特斯拉Optimus 可沿用汽車FSD 系統的技術棧，實現多模態輸入與實時動作輸出。2)典型的分層具身大模型包括Figure Al Helix、英偉達GROOT N1與Physical Intelligence πo Helix采用“系統S1 (快思考)+系統S2 (慢思考)”雙系統架構；GROOT N1同樣采用雙系統架構，并利用流匹配技術來生成動作；π。采用“預訓練 VLM+ 動作專家模塊”的VLA 模型。

國內具身大模型：架構持續創新，能力對標海外，典型模型包括智元機器人G0-1、星動紀元ERA-42、銀河通用GraspVLA、靈初智能Psi R1及字節Seed GR-3。G0-1 開創性提出VLLA 架構，采用“VLM+MoE (混合專家)”; ERA-42 模型是國內個真正意義上的端到端原生機器人大模型；GraspVLA 模型將VLM 與動作專家集成，是個合成大數據驅動的基礎抓取大模型：Psi R1模型采用快慢腦架構；GR-3 采用40億參數的混合變換器架構，泛化抓取-放置能力超越πo 數據是驅動具身大模型迭代升J的關鍵，目前主流數據訓練方案為真機、仿真與視頻數據相結合。伴隨具身智能轉向端到端大模型，數據需求從低量單一模態數據逐步升 J為海量、多模態、高精度和跨任務長程數據，其中真機數據價值Z高，獲取難度Z大，是具身智能落地的可靠數據源。

目前真實數據采集方式主要分為VR遙操作采集、機械臂主從控制采集、數據手套遙操作等。目前主流廠家數據采集及訓練方案多樣，特斯拉數采方案或轉向視頻學習，而銀河通用以物理仿真數據為主、真實數據為輔。

附件：具身大模型：人形機器人智慧內核,主流框架為分層式與端到端式,VR遙操作采集、機械臂主從控制采集、數據手套遙操作