先说关键词，你米这次开源了自家最新的机器人Vla大模型，该模型能力行业第一梯队，

先说关键词，你米这次开源了自家最新的机器人Vla大模型，该模型能力行业第一梯队，小米这次Benchmark全面超越OpenVLA和Pi。

比起某些友商，小米从su7ultra到玄戒到mimo到Robotics-0，小米不语，只是一味技术突破，持续突破

接下来聊聊小米的Robotics-0大模型:

今天小米发布了一篇文章，《小米开源首代机器人 VLA 大模型，刷新多项 SOTA！》，这是小米技术团队关于其具身智能（Embodied AI）领域重大突破的官方技术博客。非常值得关注

文章详细介绍了小米首款开源的机器人VLA（Vision-Language-Action）大模型——Xiaomi-Robotics-0。雷军公布小米机器人最新进展

Xiaomi-Robotics-0，是一个拥有47亿参数的开源VLA的模型，它兼具视觉语言理解与高性能实时执行能力，能在消费级显卡上运行，解决了传统大模型在物理世界中“反应迟钝”的问题。

Robotics-0采用了 MoT（Mixture-of-Transformers）混合架构，包含“视觉语言大脑（VLM）”和“动作执行小脑（Action Expert）”。

训练方面，Robotics-0采用了两阶段训练法，包括跨模态预训练（Cross-Embodiment Pre-training）和后训练（Post-training），引入了异步推理和特殊注意力掩码机制。

最后说一下文章本身，这篇文章提出的MoT架构非常有见地。它没有强行将视觉和动作塞进一个模型，而是通过VLM处理语义理解（“做什么”），通过DiT（Diffusion Transformer）处理动作生成（“怎么做”）。这种分工模拟了人类的生理机制，有效平衡了通用认知与精细控制的矛盾。连门外汉也能轻松读懂

它不仅展示了小米在AI领域的深度布局，更标志着具身智能技术从“云端实验室”向“端侧实时应用”的关键跨越。通过开源这一模型，小米不仅提升了其技术品牌形象，也为整个机器人行业提供了宝贵的基础设施，具有重要的里程碑意义。

小米发布机器人基座模型