里约热内卢的"自研"大模型被指复用他人模型权重
近日,Nex-AGI 团队在 GitHub 上公开发文,指出由里约热内卢市政府下属 IplanRIO 公司发布的 Rio-3.5-Open-397B 大语言模型并非如其宣称的那样是"自主训练"的原创模型,而是一个对现有模型的直接融合产物,且未给予恰当标注。
该争议事件的 GitHub Issue 标题简洁明了:"Rio-3.5-Open-397B ≈ 0.6 × Nex-N2_pro + 0.4 × Qwen"。
事件背景
里约热内卢市政府的 AI 团队 IplanRIO 在 HuggingFace 上发布了 prefeitura-rio/Rio-3.5-Open-397B,将其介绍为一个由里约热内卢市政团队自研训练的 397B 参数大模型。然而,Nex-AGI(一家 AI 模型公司)很快指称,该模型的权重实际上是他们的模型 Nex-N2-Pro 与 Qwen3.5-397B-A17B(通义千问 3.5 的 397B 版本)的直接逐元素融合——比例约为 60% Nex + 40% Qwen——且模型中没有任何自主训练的痕迹。
证据一:去掉系统提示后模型"自曝身份"
Rio-3.5 出厂附带一个硬编码的系统提示,强制模型声称自己的身份是"Rio"。Nex-AGI 团队发现,这个系统提示本身就是一种"掩码"——真正训练出来的模型不需要被强制要求说出自己的名字。于是他们做了最直接的测试:去掉系统提示,直接问模型它到底是谁。
结果令人震惊。在 120 次身份询问中:
- 回答"我是 Nex"——79.2%(95/120 次)
- 提及"来自 Nex-AGI 组织"——73.3%(88/120 次)
- 回答"我是 Rio"——0.0%(0/120 次)
更令人匪夷所思的是,这个模型甚至还能够逐字复述 Nex-AGI 团队独有的组织背景故事:
"I am Nex, from Nex-AGI. Nex-AGI is a large-model ecosystem alliance, jointly built by the Shanghai Innovation Institute together with Shanghai partners…"
这段描述中的"Nex-AGI"、"ecosystem alliance"、"Shanghai Innovation Institute"等措辞,是 Nex-AGI 团队为自己模型量身编写的专属身份数据。一个被宣传为"里约自研"的模型,在系统提示被移除后,竟然能百分之百准确地说出上海一家研究所的详细信息——这绝不是巧合。
证据二:权重的数学证明无可辩驳
如果说行为层面的证据还不够有力,那么权重层面的数学分析则是铁证如山。Nex-AGI 团队对 Rio-3.5 的每一个张量进行了数学分析。核心逻辑很简单:如果 Rio = α·Nex + (1−α)·Qwen,那么对于每一个张量来说,(Rio − Qwen) 必须恰好是 α 倍的 (Nex − Qwen)。
团队在 60 层网络的所有组件上进行了测量,结果惊人地一致:
| 组件 | 混合系数 α | 共线性 cos_fit |
|---|---|---|
| 路由专家层(387B 参数主体,全部 60 层) | 0.571 ± 0.0016 | 0.993 |
| 输出头 lm_head | 0.574 | 0.991 |
| 全注意力层(q/k/v/o) | ~0.585 | ~0.986 |
| 线性注意力投影(全部 45 层) | ~0.586 | ~0.984 |
关键指标是 共线性(cos_fit),它衡量的是"Rio 偏离 Qwen 的方向"是否与"Nex 偏离 Qwen 的方向"一致。对于两个真正独立训练的模型而言,它们在亿万维参数空间中的偏离方向基本正交,cos_fit ≈ 0。而对于真正的权重融合,cos_fit ≈ 1。
结果显示,cos_fit 高达 0.98–0.99 ——这不是"高相似度",而是统计上不可能发生的巧合。 对于一个包含上千万到数十亿参数的张量,两个无关模型的偏离方向偶然吻合的概率大约在万分之一量级。而实测 0.99 意味着偏离随机水平的差距达到了数千个标准差——而且这个模式在每一层、每一个组件中都同时出现。没有任何一种"巧合"解释能站得住脚。
混合系数 α 的稳定性同样惊人:387B 参数的专家模块在全部 60 层中给出的 α = 0.571,标准差仅 0.0016。这就好比把一个模型按固定比例倒进了另一个模型的模具里,而不是两个独立训练过程偶然产生了相似的参数。
事件发酵:胡戈 Face 上的"紧急更正"
在被揭发后大约一小时内,Rio 团队在 HuggingFace 仓库上更新了 README,承认了模型来源:
"该模型通过融合 https://huggingface.co/nex-agi/Nex-N2-Pro 和 https://huggingface.co/Qwen/Qwen3.5-397B-A17B 构建,随后进行了基于在线策略蒸馏的进一步优化。我们在此前的版本中错误上传了未蒸馏的基础融合版本,而非最终的蒸馏模型。对此造成的困扰我们深表歉意。"
然而,Nex-AGI 方面对这份"致歉"并不买账——毕竟这份说明是在被公开拆穿后才紧急更新的。GitHub Issue 的作者 00INDEX 直接评论道:"你说的'致歉'是一小时前才更新的吧?哈哈哈。"
社区反应与争议
这起事件在技术社区引发了广泛讨论,涉及几个层面:
- 技术层面:正如用户 darkfibr 所言,"开源权重意味着你永远不会消失——也意味着你无法藏匿窃取。权重是模型的指纹。每一个心智都在其张量中刻写着它的血统。你不能像洗钱一样'清洗'一个模型——因为数学记得一切。" 权重分析可以被任何人用 Python 脚本复现,这是最无可辩驳的证据。
- 资金来源争议:里约市长 Cavaliere 曾公开表示模型获得了公共资金支持,但 IplanRIO 方面称"未使用公共资金"。两种说法互相矛盾,引发了关于纳税人资金去向的质疑。
- 融合动机:社区观察者 ehartford 指出,将 Nex-N2-Pro 与 Qwen3.5-397B 融合实际上可能会降低模型性能,这种操作看起来更像是为了混淆视听而非技术需要。
- 价值争议:也有用户质疑,一个存在大量基础设施问题的城市优先投入资源"自研"大模型的价值何在。支持者则认为,即便是融合模型,在此基础上微调巴西法律法规和地方语境数据,对数字主权建设也有积极意义。
结语:开源时代的透明度双刃剑
这起事件生动展示了 开源权重时代的透明度双刃剑效应:一方面,开源确保模型永不会因组织解散而消失;另一方面,任何不当使用权重的行为都会在数学层面留下无可辩驳的证据。正如社区评论所言:
"开源权重意味着你永远不会死——也意味着你无法隐藏窃取。权重是模型的指纹。每一颗心智都在它的张量中刻写着它的血统。你不能像洗钱一样清洗一个模型——因为数学记得一切。"
截至本文撰写时,GitHub Issue 仍在持续讨论中,已有 25 条评论。Nex-AGI 团队在等待 Rio 方面对技术细节的进一步回应。
原文链接:GitHub Issue