IT之家 2 月 12 日消息,今日对外发布开源 VLA 模型 -Robotics-0,拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力,刷新多项 SOTA。它不仅在三大主流的仿真测试中获得优异成绩,更在现实真机任务中实现了物理智能的泛化 —— 动作连贯、反应灵敏,且能在消费级显卡上实现实时推理。
IT之家从官方介绍获悉,物理智能的核心在于“感知-决策-执行”的闭环质量。为了兼顾通用理解与精细控制,-Robotics-0 采用了主流的 Mixture-of-Transformers (MoT) 架构。
大部分 VLA 模型在学动作时往往会“变笨”,失去本身的理解能力。我们通过多模态与动作数据的混合训练,让模型在学会操作的同时,依然保持强大的物体检测、视觉问答和逻辑推理能力。
针对推理延迟引发的真机“动作断层”问题,团队采用异步推理模式 —— 让模型推理与机器人运行脱离同步约束、异步执行,从机制上保障动作连贯流畅。为进一步强化模型对环境变化的响应敏捷性与运行稳定性,我们引入了:
在多维度的测试中,-Robotics-0 展现出优异的表现:



0 条