消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

2月12日消息,小米又憋了个大的。

今天,雷军亲自在微博放出重磅消息,小米机器人团队正式发布并开源全新具身智能VLA模型 Xiaomi-Robotics-0,真机运行画面首次对外曝光

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

这不是一次普通的技术更新,而是小米在机器人领域的一次关键破局。47亿参数规模、兼具视觉语言理解与高性能实时执行能力,在三大主流仿真测试中横扫行业标杆,拿下全项SOTA(State-of-the-Art,即当前公开可验证的最先进、最高水平),更在真实机器人上实现流畅动作。

而最具颠覆性的是,它能在普通消费级显卡上实现实时推理,直接打破了高端机器人模型 只能实验室跑、普通人用不起 的魔咒,这也是其区别于同类产品的核心亮点之一。

很多人好奇,现在的机器人模型,到底卡在哪了?

行业里藏着两个多年未解决的核心痛点:

第一,推理延迟高、动作不连贯:传统 VLA(Vision-Language-Action,视觉 - 语言 - 动作)模型虽然参数规模可圈可点、泛化能力较强,但在真实物理世界中,庞大的推理延迟让机器人像 延迟卡顿的木偶,动作断断续续,根本没法像人一样自然操作,被网友调侃为 反应迟钝的木头人;

第二,硬件门槛极高:稍微具备高性能的模型,必须依赖昂贵的专业显卡才能正常运行,普通开发者、小团队根本碰不起,导致先进技术只能被锁在实验室,无法落地普及。

在此基础上,还有一个普遍难题。不少模型 仿真测试成绩好看,一上真机就拉胯,无法在现实世界里稳定完成叠毛巾、拆积木这类真实物理任务,形成理论与实操脱节的尴尬。而小米这次的 Xiaomi-Robotics-0,就是冲着解决这些行业顽疾来的。

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

官方明确表态:今天,我们对外发布:Xiaomi-Robotics-0。这是一个拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力的开源 VLA 模型。它不仅在三大主流的仿真测试中获得优异成绩,更在现实真机任务中实现了物理智能的泛化 动作连贯、反应灵敏,且能在消费级显卡上实现实时推理。

这句话精准概括了模型的核心优势,尤其要强调,不用高端计算设备,不用斥巨资购买专业显卡,普通消费级显卡就能让它稳定跑起来,这也是小米此次最具突破性的成果之一,直接拉低了具身智能技术的落地门槛。

能做到这一点,核心是小米自研的Mixture-of-Transformers(MoT)混合架构,通俗说就是给机器人装了 双脑协同系统,兼顾决策与执行效率。

一个是视觉语言大脑(VLM),负责听懂人话、看懂环境,哪怕是 把毛巾叠好 这种模糊指令,也能精准理解空间关系和任务目标,保留了VLM本身的多模态理解能力,这是此前很多VLA 模型所不具备的优势;

另一个是动作执行小脑(DiT),专门负责把指令变成丝滑动作,生成连续流畅的 动作块,再通过流匹配技术保证精准稳定,让机器人告别机械卡顿,动作接近人类的灵活度,从根源上解决了传统模型动作断层的痛点。

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

为了让机器人既聪明又能干,团队还设计了两阶段训练方案。

先通过跨模态预训练,让模型在学动作的同时,不丢失物体识别、视觉问答等基础能力,避免 练了手工、废了脑子,同时通过 Action Proposal 机制让VLM的特征空间与动作空间对齐,为后续实操打下基础。

再通过后训练优化,用异步推理模式从机制上解决真机 动作断层 问题,搭配 Clean Action Prefix 让动作轨迹连续不抖动,通过 Λ-shape Attention Mask 让机器人聚焦当前视觉反馈、摆脱历史惯性,哪怕环境有小变化,也能即时调整,大幅提升环境适配能力。

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝分拣不同颜色的积木

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

将大块积木逐步拆成小块

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

将毛巾摊平-叠好

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

主动将多余毛巾放回以进行叠放

从这次曝光的真机视频里就能直观感受到,处理毛巾这种软塌塌的柔性物体,它会先铺平、再对折、整理整齐,多余的毛巾还会主动放回原位。

面对刚性积木,它能一步步稳妥拆解,手眼协调极其稳定,不会出现卡顿或失误。不管是软质材料还是硬质物件,都能从容完成,这就是物理智能真正落地的直观表现,也是小米此次突破的核心价值所在。

在 Libero、Calvin、SimplerEnv 三大全球主流具身智能测试集里,Xiaomi-Robotics-0 对标超过 30 款主流模型,在所有基准测试中全部拿下SOTA,用实打实的数据坐稳行业第一梯队,真正实现了 仿真通、真机强、多模态能力不丢失 的突破。

比技术更强的是小米的格局:这次成果直接全量开源 技术主页、GitHub开源代码、Hugging Face模型权重全部公开,全球开发者都能免费使用、二次开发,相关资源可在各大平台直接获取,彻底打破了大厂对具身智能核心技术的垄断。

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

这意味着,原本高高在上的具身智能技术,第一次真正向行业敞开大门,不再是大厂专属玩具,普通开发者也能参与其中,加速整个行业的技术迭代。

雷军也在微博中透露,小米早已深度布局机器人赛道,目前仍在全球招募顶尖人才,团队还在持续冲刺下一代技术,此次发布的 Xiaomi-Robotics-0 只是阶段性研究成果,未来还会有更多突破。

当机器人不再是卡顿的演示道具,而是动作流畅、反应灵敏,还能在消费级硬件上轻松跑起来的真实产品,那个 家用机器人走进千家万户 的未来,真的离我们越来越近了。

消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝

标签:

honglian
cc 管理员

  • 声明:本文由cc于2026-02-12发表在imtoken官网下载/imtoken钱包下载/imtoken安卓版app下载/imtoken钱包app下载,如有疑问,请联系我们。
  • 本文地址:https://www.hk-sz.com/imtoken/40505.html
上一篇:显卡价格已到荒唐地步!韩国索泰官方提醒:RTX 5090、5060将大幅涨价
下一篇:困扰很多人!长期自己烧水喝和买桶装水喝谁更健康:官方解答来了