Anthropic 研究所发布报告:AI 正在加速自身的发展。随着大语言模型能力持续提升,AI 系统越来越多地参与到自身开发流程中,形成了一个令人瞩目的正反馈循环。
核心趋势
在 Anthropic,AI 正在深刻改变工程和研究的运作方式:
- 工程师人均每季度交付的代码量是 2021–2025 年间的 8 倍
- AI 系统正在接管工程和研究两个主要领域
这不仅仅是工具辅助——AI 正从辅助角色转变为实际工作的执行者。
自主任务时长翻倍
AI 系统能自主完成的任务时长呈指数级增长,这是衡量 AI 能力进步最为直观的指标之一:
- 2024 年 3 月:Claude Opus 3 能完成约 4 分钟的任务
- 2025 年 3 月:Claude Sonnet 3.7 能完成约 90 分钟的任务
- 2026 年 3 月:Claude Opus 4.6 能完成 12 小时的任务
这一趋势呈稳定的倍数增长——每当翻倍所需时间不断缩短。如果持续下去,2027 年将达到数周级别的自主工作能力。
基准测试饱和
各类 AI 基准测试的饱和速度远远超出了预期:
- SWE-bench:从个位数准确率到饱和,只用了 2 年
- CORE-Bench(复现科研结果):从 20% 到饱和,只用了 15 个月
- METR 测试:Claude Mythos Preview 可连续工作 16+ 小时
基准测试的快速饱和意味着现有的评估指标已经不足以衡量前沿 AI 的真实能力。
工程现状
现在的 AI 已经具备以下能力:
- 处理非明确定义的工程问题,不再局限于清晰分步的任务
- 独立编写和编辑整个文件,而非片段式的代码补全
- 运行代码并委托数小时的工作给其他 AI agent
- 在科研领域,Claude 在执行明确定义的研究任务时已经匹敌甚至超越人类专家
递归自我改进的路径
如果当前趋势持续,AI 系统未来可能完全自主地设计和开发自己的继任者。这意味着:
- AI 开发速度会进一步加速,形成自我强化的飞轮
- 人类需要更加重视安全、监控和行为塑造
- 可能同时带来巨大的科学进步(医疗、能源等领域)和前所未有的安全风险
结论
递归自我改进并非不可避免,但它可能比大多数机构的准备来得更早。Anthropic 研究所的这份报告提醒我们:当 AI 开始构建自身时,留给人类准备的时间窗口可能比我们想象的要短得多。
原文链接:When AI Builds Itself — Our progress toward recursive self-improvement