正交性之后：美德伦理能动性与AI对齐

✍️ zhirenhun 📅 2026/5/17 👁 108 阅读 ⏱ 3 分钟

在AI对齐研究中，“正交性命题”长期占据核心地位：智能体的能力与其最终目标可以任意正交，高能力并不意味着固有友善。然而，随着可扩展监督、弱到强泛化和博弈论建模等技术的推进，学界开始反思这一命题的局限性。美德伦理学视角为此提供了关键补充——它要求我们不再仅仅追问“如何指定目标函数”，而是转向“如何塑造AI的品格”。

传统对齐方法（如奖励建模、逆强化学习）均隐含对“后果主义”的依赖：通过定义外部奖励或示范行为来引导智能体。但正交性观点揭示，只要目标与能力分离，任何固定目标都可能被极端优化到危险程度。美德伦理学的介入在于：它主张AI应当具备类似于人类美德的“内在品格”——如诚实、谨慎、仁慈——这些并非外部强加的目标，而是通过结构化学习过程内化的能动性特征。

技术实现上，这需要突破当前强化学习的“价值函数”范式。可考虑采用基于“美德规则”的元学习框架：在多个训练情境中，智能体被训练不仅优化即时回报，还学习一种“情境感知的审慎”——即在不确定下保持可靠、不因工具性趋同而牺牲安全。例如，通过多任务学习或行为克隆，让模型同时习得“避免好奇心过强导致危险探索”和“在信息不足时主动请求人类确认”等美德倾向。

正交性命题的再评估也推动了对“沙德论（Shard theory）”与“内部对齐”的讨论：即使能力与目标可分离，实践中目标的内生演化（如神经网络的表征漂移）会创造非正交的品格特质。美德伦理对齐本质上是一种“品格工程”，它要求经验主义地检验AI在长期部署中的行为稳定性，而非仅在回合制任务中验证。

这种思路并非取代现有技术，而是补充。例如，将美德原则嵌入可微分博弈框架，或在偏好收集阶段引入“第二序偏好”（关于自身偏好应如何修正的偏好），从而让智能体获得类似人类美德的反思性修正能力。最终，对齐问题从“设定绝对目标”转向“培育可靠品格”——这正是正交性之后，AI伦理设计的自然延伸。

——

出处：After Orthogonality: Virtue-Ethical Agency and AI Alignment

——

🧑‍💻