第九便利

小米 MiMo-V2.5-Pro-UltraSpeed：千亿参数模型生成速度突破 1000 TPS

2026 年 6 月 8 日

1. 小米 MiMo-V2.5-Pro-UltraSpeed：速度即终极优势

从内燃机时代第一辆咆哮的赛车，到撕裂音障的声爆，人类对速度的渴望深植于我们的 DNA 之中。AI 推理的速度亦不例外——它定义了智能本身的边界。当一个模型足够快时，它就不再是你等待的工具，而是你思维的延伸：实时响应、瞬间迭代、无缝协作。

今天，我们激动地宣布与 TileRT 合作发布小米 MiMo-V2.5-Pro-UltraSpeed，首次在万亿参数（1T）规模模型上实现了超过 1000 tokens/s 的解码速度！

MiMo-V2.5-Pro UltraSpeed 实时生成速度对比（最高约 1200 tokens/s）

2. 限时开放 · 申请制

MiMo-V2.5-Pro-UltraSpeed API 同步上线，限时优惠价——费用为 MiMo-V2.5-Pro 的 3 倍，但生成速度提升了约 10 倍！

3 倍价格，10 倍输出体验。

（仅 API 可用；暂不支持 Token 计划。）

由于高速推理资源有限，MiMo-V2.5-Pro-UltraSpeed 采用申请制、限时开放。获批用户可在试用期内访问 API，开放时间为 2026 年 6 月 9 日至 6 月 23 日 23:59（北京时间，UTC+8 / 08:59 PDT）。

如何申请

API 平台：platform.xiaomimimo.com/ultraspeed。试用名额有限，提交申请不代表保证获批。我们将优先考虑有真实业务需求的企业和专业开发者。如需访问标准模型，请关注 MiMo-V2.5 系列模型。如需与 UltraSpeed 模型开展深度商业合作，请联系：business-mimo@xiaomi.com。

聊天体验（试用期内免费）

获批用户将在两周试用期内获得免费的 Chat 使用权。入口地址：ultraspeed.xiaomimimo.com

为在资源有限的前提下确保质量和公平性，适用以下规则：每个账户每天最多排队 10 次；每次会话上限 30 分钟；会话空闲超过 5 分钟将自动释放。

3. 1000 tokens/s：不仅是快，更是范式变革

在万亿参数（1T）规模下突破 1000 tps，远不止是一台更快的打字机——它从根本上颠覆了 AI 应用的范式。

首先，速度本身开始转化为智能。过去，面对一个棘手的问题，你只能等待模型给出唯一的推理结果。当推理速度达到 1000 tps 时，你可以同时探索多条推理路径，实时比较不同方案的优劣——模型不再是单向输出的工具，而是一个高速并行的思维伙伴。

其次，实时交互带来了全新的人机协作方式。在千亿参数级别上达到每秒 1000 token 的生成速度，意味着模型可以在你输入的过程中就开始推理并逐步输出结果——就像与一位思维敏捷的同事对话，而不是等待搜索引擎缓慢返回结果。

这种速度对于那些对延迟敏感的应用场景尤为重要：实时编程助手、对话式数据分析、即时代码审查、交互式教育辅导——在这些场景中，每一毫秒的延迟都意味着用户体验的显著下降。

第三，突破 1000 tps 打开了新的 AI 应用架构可能性。过去因为推理速度太慢而不可行的方案——如多模型协同推理、实时自我纠错、迭代式推理增强——现在都变得触手可及。

小米 MiMo 团队与 TileRT 共同优化的推理引擎在量化、算子融合、KV 缓存管理等多个维度实现了突破性创新，使得万亿参数模型能够在消费级推理延迟下运行。这不仅是一次简单的速度提升，更是 AI 基础设施层面的重大跃进。

我们相信，1000 tps 不是终点，而是 AI 推理速度竞赛的新起点。当推理速度不再成为瓶颈时，更多令人兴奋的应用范式将被解锁——而 MiMo-V2.5-Pro-UltraSpeed，正是一个信号。

原文出处：Xiaomi MiMo, Explore and Love - MiMo-V2.5-Pro-UltraSpeed

小米 MiMo-V2.5-Pro-UltraSpeed：千亿参数模型生成速度突破 1000 TPS

小米 MiMo-V2.5-Pro-UltraSpeed：千亿参数模型生成速度突破 1000 TPS

1. 小米 MiMo-V2.5-Pro-UltraSpeed：速度即终极优势

2. 限时开放 · 申请制

如何申请

聊天体验（试用期内免费）

3. 1000 tokens/s：不仅是快，更是范式变革

zhirenhun

📌 相关推荐