消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

cc 1小时前 imtoken资讯 2026-02-12 11:59:54

2月12日消息，小米又憋了个大的。

今天，雷军亲自在微博放出重磅消息，小米机器人团队正式发布并开源全新具身智能VLA模型 Xiaomi-Robotics-0，真机运行画面首次对外曝光。

这不是一次普通的技术更新，而是小米在机器人领域的一次关键破局。47亿参数规模、兼具视觉语言理解与高性能实时执行能力，在三大主流仿真测试中横扫行业标杆，拿下全项SOTA（State-of-the-Art，即当前公开可验证的最先进、最高水平），更在真实机器人上实现流畅动作。

而最具颠覆性的是，它能在普通消费级显卡上实现实时推理，直接打破了高端机器人模型只能实验室跑、普通人用不起的魔咒，这也是其区别于同类产品的核心亮点之一。

很多人好奇，现在的机器人模型，到底卡在哪了？

行业里藏着两个多年未解决的核心痛点：

第一，推理延迟高、动作不连贯：传统 VLA（Vision-Language-Action，视觉 - 语言 - 动作）模型虽然参数规模可圈可点、泛化能力较强，但在真实物理世界中，庞大的推理延迟让机器人像延迟卡顿的木偶，动作断断续续，根本没法像人一样自然操作，被网友调侃为反应迟钝的木头人；

第二，硬件门槛极高：稍微具备高性能的模型，必须依赖昂贵的专业显卡才能正常运行，普通开发者、小团队根本碰不起，导致先进技术只能被锁在实验室，无法落地普及。

在此基础上，还有一个普遍难题。不少模型仿真测试成绩好看，一上真机就拉胯，无法在现实世界里稳定完成叠毛巾、拆积木这类真实物理任务，形成理论与实操脱节的尴尬。而小米这次的 Xiaomi-Robotics-0，就是冲着解决这些行业顽疾来的。

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

官方明确表态：今天，我们对外发布：Xiaomi-Robotics-0。这是一个拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力的开源 VLA 模型。它不仅在三大主流的仿真测试中获得优异成绩，更在现实真机任务中实现了物理智能的泛化动作连贯、反应灵敏，且能在消费级显卡上实现实时推理。

这句话精准概括了模型的核心优势，尤其要强调，不用高端计算设备，不用斥巨资购买专业显卡，普通消费级显卡就能让它稳定跑起来，这也是小米此次最具突破性的成果之一，直接拉低了具身智能技术的落地门槛。

能做到这一点，核心是小米自研的Mixture-of-Transformers（MoT）混合架构，通俗说就是给机器人装了双脑协同系统，兼顾决策与执行效率。

一个是视觉语言大脑（VLM），负责听懂人话、看懂环境，哪怕是把毛巾叠好这种模糊指令，也能精准理解空间关系和任务目标，保留了VLM本身的多模态理解能力，这是此前很多VLA 模型所不具备的优势；

另一个是动作执行小脑（DiT），专门负责把指令变成丝滑动作，生成连续流畅的动作块，再通过流匹配技术保证精准稳定，让机器人告别机械卡顿，动作接近人类的灵活度，从根源上解决了传统模型动作断层的痛点。

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

为了让机器人既聪明又能干，团队还设计了两阶段训练方案。

先通过跨模态预训练，让模型在学动作的同时，不丢失物体识别、视觉问答等基础能力，避免练了手工、废了脑子，同时通过 Action Proposal 机制让VLM的特征空间与动作空间对齐，为后续实操打下基础。

再通过后训练优化，用异步推理模式从机制上解决真机动作断层问题，搭配 Clean Action Prefix 让动作轨迹连续不抖动，通过 Λ-shape Attention Mask 让机器人聚焦当前视觉反馈、摆脱历史惯性，哪怕环境有小变化，也能即时调整，大幅提升环境适配能力。

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝分拣不同颜色的积木

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

将大块积木逐步拆成小块

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

将毛巾摊平-叠好

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

主动将多余毛巾放回以进行叠放

从这次曝光的真机视频里就能直观感受到，处理毛巾这种软塌塌的柔性物体，它会先铺平、再对折、整理整齐，多余的毛巾还会主动放回原位。

面对刚性积木，它能一步步稳妥拆解，手眼协调极其稳定，不会出现卡顿或失误。不管是软质材料还是硬质物件，都能从容完成，这就是物理智能真正落地的直观表现，也是小米此次突破的核心价值所在。

在 Libero、Calvin、SimplerEnv 三大全球主流具身智能测试集里，Xiaomi-Robotics-0 对标超过 30 款主流模型，在所有基准测试中全部拿下SOTA，用实打实的数据坐稳行业第一梯队，真正实现了仿真通、真机强、多模态能力不丢失的突破。

比技术更强的是小米的格局：这次成果直接全量开源技术主页、GitHub开源代码、Hugging Face模型权重全部公开，全球开发者都能免费使用、二次开发，相关资源可在各大平台直接获取，彻底打破了大厂对具身智能核心技术的垄断。

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

这意味着，原本高高在上的具身智能技术，第一次真正向行业敞开大门，不再是大厂专属玩具，普通开发者也能参与其中，加速整个行业的技术迭代。

雷军也在微博中透露，小米早已深度布局机器人赛道，目前仍在全球招募顶尖人才，团队还在持续冲刺下一代技术，此次发布的 Xiaomi-Robotics-0 只是阶段性研究成果，未来还会有更多突破。

当机器人不再是卡顿的演示道具，而是动作流畅、反应灵敏，还能在消费级硬件上轻松跑起来的真实产品，那个家用机器人走进千家万户的未来，真的离我们越来越近了。

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

cc 管理员

声明：本文由cc于2026-02-12发表在imtoken官网下载/imtoken钱包下载/imtoken安卓版app下载/imtoken钱包app下载，如有疑问，请联系我们。
本文地址：https://www.hk-sz.com/imtoken/40505.html