小米 MiMo-V2.5-Pro-UltraSpeed:千亿参数模型生成速度突破 1000 TPS
2026 年 6 月 8 日
1. 小米 MiMo-V2.5-Pro-UltraSpeed:速度即终极优势
从内燃机时代第一辆咆哮的赛车,到撕裂音障的声爆,人类对速度的渴望深植于我们的 DNA 之中。AI 推理的速度亦不例外——它定义了智能本身的边界。当一个模型足够快时,它就不再是你等待的工具,而是你思维的延伸:实时响应、瞬间迭代、无缝协作。
今天,我们激动地宣布与 TileRT 合作发布小米 MiMo-V2.5-Pro-UltraSpeed,首次在万亿参数(1T)规模模型上实现了超过 1000 tokens/s 的解码速度!
MiMo-V2.5-Pro UltraSpeed 实时生成速度对比(最高约 1200 tokens/s)
2. 限时开放 · 申请制
MiMo-V2.5-Pro-UltraSpeed API 同步上线,限时优惠价——费用为 MiMo-V2.5-Pro 的 3 倍,但生成速度提升了约 10 倍!
3 倍价格,10 倍输出体验。
(仅 API 可用;暂不支持 Token 计划。)
由于高速推理资源有限,MiMo-V2.5-Pro-UltraSpeed 采用申请制、限时开放。获批用户可在试用期内访问 API,开放时间为 2026 年 6 月 9 日至 6 月 23 日 23:59(北京时间,UTC+8 / 08:59 PDT)。
如何申请
API 平台:platform.xiaomimimo.com/ultraspeed。试用名额有限,提交申请不代表保证获批。我们将优先考虑有真实业务需求的企业和专业开发者。如需访问标准模型,请关注 MiMo-V2.5 系列模型。如需与 UltraSpeed 模型开展深度商业合作,请联系:business-mimo@xiaomi.com。
聊天体验(试用期内免费)
获批用户将在两周试用期内获得免费的 Chat 使用权。入口地址:ultraspeed.xiaomimimo.com
为在资源有限的前提下确保质量和公平性,适用以下规则:每个账户每天最多排队 10 次;每次会话上限 30 分钟;会话空闲超过 5 分钟将自动释放。
3. 1000 tokens/s:不仅是快,更是范式变革
在万亿参数(1T)规模下突破 1000 tps,远不止是一台更快的打字机——它从根本上颠覆了 AI 应用的范式。
首先,速度本身开始转化为智能。过去,面对一个棘手的问题,你只能等待模型给出唯一的推理结果。当推理速度达到 1000 tps 时,你可以同时探索多条推理路径,实时比较不同方案的优劣——模型不再是单向输出的工具,而是一个高速并行的思维伙伴。
其次,实时交互带来了全新的人机协作方式。在千亿参数级别上达到每秒 1000 token 的生成速度,意味着模型可以在你输入的过程中就开始推理并逐步输出结果——就像与一位思维敏捷的同事对话,而不是等待搜索引擎缓慢返回结果。
这种速度对于那些对延迟敏感的应用场景尤为重要:实时编程助手、对话式数据分析、即时代码审查、交互式教育辅导——在这些场景中,每一毫秒的延迟都意味着用户体验的显著下降。
第三,突破 1000 tps 打开了新的 AI 应用架构可能性。过去因为推理速度太慢而不可行的方案——如多模型协同推理、实时自我纠错、迭代式推理增强——现在都变得触手可及。
小米 MiMo 团队与 TileRT 共同优化的推理引擎在量化、算子融合、KV 缓存管理等多个维度实现了突破性创新,使得万亿参数模型能够在消费级推理延迟下运行。这不仅是一次简单的速度提升,更是 AI 基础设施层面的重大跃进。
我们相信,1000 tps 不是终点,而是 AI 推理速度竞赛的新起点。当推理速度不再成为瓶颈时,更多令人兴奋的应用范式将被解锁——而 MiMo-V2.5-Pro-UltraSpeed,正是一个信号。
原文出处:Xiaomi MiMo, Explore and Love - MiMo-V2.5-Pro-UltraSpeed