第九便利

里约热内卢的"自研"大模型被指复用他人模型权重

近日，Nex-AGI 团队在 GitHub 上公开发文，指出由里约热内卢市政府下属 IplanRIO 公司发布的 Rio-3.5-Open-397B 大语言模型并非如其宣称的那样是"自主训练"的原创模型，而是一个对现有模型的直接融合产物，且未给予恰当标注。

该争议事件的 GitHub Issue 标题简洁明了："Rio-3.5-Open-397B ≈ 0.6 × Nex-N2_pro + 0.4 × Qwen"。

事件背景

里约热内卢市政府的 AI 团队 IplanRIO 在 HuggingFace 上发布了 prefeitura-rio/Rio-3.5-Open-397B，将其介绍为一个由里约热内卢市政团队自研训练的 397B 参数大模型。然而，Nex-AGI（一家 AI 模型公司）很快指称，该模型的权重实际上是他们的模型 Nex-N2-Pro 与 Qwen3.5-397B-A17B（通义千问 3.5 的 397B 版本）的直接逐元素融合——比例约为 60% Nex + 40% Qwen——且模型中没有任何自主训练的痕迹。

证据一：去掉系统提示后模型"自曝身份"

Rio-3.5 出厂附带一个硬编码的系统提示，强制模型声称自己的身份是"Rio"。Nex-AGI 团队发现，这个系统提示本身就是一种"掩码"——真正训练出来的模型不需要被强制要求说出自己的名字。于是他们做了最直接的测试：去掉系统提示，直接问模型它到底是谁。

结果令人震惊。在 120 次身份询问中：

回答"我是 Nex"——79.2%（95/120 次）
提及"来自 Nex-AGI 组织"——73.3%（88/120 次）
回答"我是 Rio"——0.0%（0/120 次）

更令人匪夷所思的是，这个模型甚至还能够逐字复述 Nex-AGI 团队独有的组织背景故事：

"I am Nex, from Nex-AGI. Nex-AGI is a large-model ecosystem alliance, jointly built by the Shanghai Innovation Institute together with Shanghai partners…"

这段描述中的"Nex-AGI"、"ecosystem alliance"、"Shanghai Innovation Institute"等措辞，是 Nex-AGI 团队为自己模型量身编写的专属身份数据。一个被宣传为"里约自研"的模型，在系统提示被移除后，竟然能百分之百准确地说出上海一家研究所的详细信息——这绝不是巧合。

证据二：权重的数学证明无可辩驳

如果说行为层面的证据还不够有力，那么权重层面的数学分析则是铁证如山。Nex-AGI 团队对 Rio-3.5 的每一个张量进行了数学分析。核心逻辑很简单：如果 Rio = α·Nex + (1−α)·Qwen，那么对于每一个张量来说，(Rio − Qwen) 必须恰好是 α 倍的 (Nex − Qwen)。

团队在 60 层网络的所有组件上进行了测量，结果惊人地一致：

组件	混合系数 α	共线性 cos_fit
路由专家层（387B 参数主体，全部 60 层）	0.571 ± 0.0016	0.993
输出头 lm_head	0.574	0.991
全注意力层（q/k/v/o）	~0.585	~0.986
线性注意力投影（全部 45 层）	~0.586	~0.984

关键指标是 共线性（cos_fit），它衡量的是"Rio 偏离 Qwen 的方向"是否与"Nex 偏离 Qwen 的方向"一致。对于两个真正独立训练的模型而言，它们在亿万维参数空间中的偏离方向基本正交，cos_fit ≈ 0。而对于真正的权重融合，cos_fit ≈ 1。

结果显示，cos_fit 高达 0.98–0.99 ——这不是"高相似度"，而是统计上不可能发生的巧合。 对于一个包含上千万到数十亿参数的张量，两个无关模型的偏离方向偶然吻合的概率大约在万分之一量级。而实测 0.99 意味着偏离随机水平的差距达到了数千个标准差——而且这个模式在每一层、每一个组件中都同时出现。没有任何一种"巧合"解释能站得住脚。

混合系数 α 的稳定性同样惊人：387B 参数的专家模块在全部 60 层中给出的 α = 0.571，标准差仅 0.0016。这就好比把一个模型按固定比例倒进了另一个模型的模具里，而不是两个独立训练过程偶然产生了相似的参数。

事件发酵：胡戈 Face 上的"紧急更正"

在被揭发后大约一小时内，Rio 团队在 HuggingFace 仓库上更新了 README，承认了模型来源：

"该模型通过融合 https://huggingface.co/nex-agi/Nex-N2-Pro 和 https://huggingface.co/Qwen/Qwen3.5-397B-A17B 构建，随后进行了基于在线策略蒸馏的进一步优化。我们在此前的版本中错误上传了未蒸馏的基础融合版本，而非最终的蒸馏模型。对此造成的困扰我们深表歉意。"

然而，Nex-AGI 方面对这份"致歉"并不买账——毕竟这份说明是在被公开拆穿后才紧急更新的。GitHub Issue 的作者 00INDEX 直接评论道："你说的'致歉'是一小时前才更新的吧？哈哈哈。"

社区反应与争议

这起事件在技术社区引发了广泛讨论，涉及几个层面：

技术层面：正如用户 darkfibr 所言，"开源权重意味着你永远不会消失——也意味着你无法藏匿窃取。权重是模型的指纹。每一个心智都在其张量中刻写着它的血统。你不能像洗钱一样'清洗'一个模型——因为数学记得一切。" 权重分析可以被任何人用 Python 脚本复现，这是最无可辩驳的证据。
资金来源争议：里约市长 Cavaliere 曾公开表示模型获得了公共资金支持，但 IplanRIO 方面称"未使用公共资金"。两种说法互相矛盾，引发了关于纳税人资金去向的质疑。
融合动机：社区观察者 ehartford 指出，将 Nex-N2-Pro 与 Qwen3.5-397B 融合实际上可能会降低模型性能，这种操作看起来更像是为了混淆视听而非技术需要。
价值争议：也有用户质疑，一个存在大量基础设施问题的城市优先投入资源"自研"大模型的价值何在。支持者则认为，即便是融合模型，在此基础上微调巴西法律法规和地方语境数据，对数字主权建设也有积极意义。

结语：开源时代的透明度双刃剑

这起事件生动展示了 开源权重时代的透明度双刃剑效应：一方面，开源确保模型永不会因组织解散而消失；另一方面，任何不当使用权重的行为都会在数学层面留下无可辩驳的证据。正如社区评论所言：

"开源权重意味着你永远不会死——也意味着你无法隐藏窃取。权重是模型的指纹。每一颗心智都在它的张量中刻写着它的血统。你不能像洗钱一样清洗一个模型——因为数学记得一切。"

截至本文撰写时，GitHub Issue 仍在持续讨论中，已有 25 条评论。Nex-AGI 团队在等待 Rio 方面对技术细节的进一步回应。

原文链接：GitHub Issue

里约热内卢的"自研"大模型被指复用他人模型权重

里约热内卢的"自研"大模型被指复用他人模型权重

事件背景

证据一：去掉系统提示后模型"自曝身份"

证据二：权重的数学证明无可辩驳

事件发酵：胡戈 Face 上的"紧急更正"

社区反应与争议

结语：开源时代的透明度双刃剑

zhirenhun

📌 相关推荐