Landon Butler, Justin Singh Kang, Yigit Efe Erginbas, Abhineet Agarwal, Bin Yu, Kannan Ramchandran
2026年3月13日
理解复杂机器学习系统,特别是大语言模型(LLMs)的行为,是现代人工智能领域面临的一个关键挑战。可解释性(Interpretability)研究旨在使模型的决策过程对模型构建者和受影响的人类更加透明,这是迈向更安全、更可信赖AI的重要一步。为了获得全面的理解,我们可以从不同的视角来分析这些系统:特征归因(Feature Attribution),它隔离了驱动预测的特定输入特征(Lundberg & Lee, 2017; Ribeiro et al., 2022);数据归因(Data Attribution),它将模型行为与有影响力的训练样本联系起来(Koh & Liang, 2017; Ilyas et al., 2022);以及机制可解释性(Mechanistic Interpretability),它解构了内部组件的功能(Conmy et al., 2023; Sharkey et al., 2025)。
在这些视角中,一个根本性的障碍依然存在:规模化下的复杂性(Complexity at Scale)。模型的行为很少是孤立组件的结果;相反,它是从复杂的依赖关系和模式中涌现出来的。为了达到最先进的性能(state-of-the-art performance),模型综合了复杂的特征关系,从多样化的训练样本中发现了共享模式,并通过高度互联的内部组件来处理信息。
因此,基于事实或经过现实检验的可解释性方法也必须能够捕获这些有影响力的交互作用。随着特征数量、训练数据点和模型组件的增长,潜在的交互数量呈指数级增长,使得穷举分析在计算上变得不可行。在本文中,我们描述了 SPEX 的基本思想——这是一种旨在高效识别ML系统中规模化交互作用的方法。
当两个或多个组件的组合效应不同于它们各自独立效应之和时,就发生了交互作用(Interactions)。在统计学上,交互效应意味着一个特征对模型输出的影响依赖于另一个特征的值。
例如,在一个情感分析模型中,“not”(非)一词与相邻的情感携带词如“good”(好)或“bad”(坏)存在强烈的交互作用。短语“not good”所携带的情感,与单独的“good”或“bad”所携带的情感是截然不同的。理解这些交互作用对于建立对模型预测的信任至关重要。
传统的交互检测方法面临着组合爆炸(Combinatorial Explosion)——对于 $N$ 个特征,存在 $inom{N}{2}$ 个成对交互作用、$inom{N}{3}$ 个三元交互作用,依此类推。对于拥有数千甚至数百万个特征的LLMs来说,穷举枚举是无法实现的。
SPEX(Sobol-based Permutation EXplanation,基于Sobol的置换解释)通过利用Sobol敏感性分析(Sobol sensitivity analysis)来应对这一挑战。Sobol敏感性分析是来自全局敏感性分析(Global Sensitivity Analysis)文献的一种基于方差的方法。其核心洞察在于,Sobol指数自然地将函数输出的方差分解为来自单个输入及其交互作用的贡献。
SPEX 方法框架
SPEX 通过系统地置换特征子集并测量其对模型输出的影响来计算交互得分。该方法采用以下关键步骤:
1. 定义目标函数(Define the target function): 对于一个ML模型 $f$ 和输入 $x$,感兴趣的函数可以是模型在特定特征组上的预测,也可以是模型的整体行为。 2. 生成扰动样本(Generate perturbed samples): 通过从参考分布中随机打乱特征值来创建输入的扰动版本。通过比较同时扰动两个特征集 $A$ 和 $B$ 时的输出与独立扰动它们时的输出,来衡量它们之间的交互效应。 3. 计算Sobol交互指数(Compute Sobol interaction indices): 集合 $A$ 和 $B$ 之间的总交互指数(Total interaction index)捕获了无法仅由 $A$ 和 $B$ 的独立效应来解释的输出方差的比例。
Sobol 指数计算
一个特征集的全阶Sobol指数(Total-order Sobol index)包含了所有涉及该特征集的交互作用。二阶指数(Second-order index)专门捕获成对交互作用。虽然也可以计算更高阶的指数,但成对交互作用通常能提供最可解释的信号。
SPEX 具有几个重要的理论特性:
1. 模型无关性(Model-agnostic): 适用于任何ML模型,包括LLMs,无需访问内部表示或梯度。 2. 处理高维输入(Handles high-dimensional inputs): 通过使用准蒙特卡洛采样(quasi-Monte Carlo sampling)和分组交互作用,该方法实现了高效的扩展性。 3. 提供形式化保证(Provides formal guarantees): Sobol指数具有明确的统计解释和置信区间。 4. 捕获高阶交互作用(Captures higher-order interactions): 与仅识别成对效应的方法不同,SPEX 在需要时可以检测到三元及更高阶的交互作用。
可扩展性比较
作者在多个LLM可解释性任务中展示了 SPEX 的应用:
理解上下文学习(Understanding In-Context Learning): SPEX 被用于识别上下文(context)中哪些示例与测试输入具有最强的交互作用。结果表明,LLMs 并非简单地对演示示例进行平均化处理——它们形成了复杂的交互模式,其中示例之间的关系至关重要。
上下文学习交互模式
识别特征组(Identifying Feature Groups): 对于情感分析等任务,SPEX 自动识别出否定词(negation words)与它们所修饰的词汇形成了一个交互组。这提供了一种原则性的方法,可以在无需手动指定的情况下发现特征交互作用。
情感分析特征交互
理解注意力模式(Understanding Attention Patterns): 该方法可应用于注意力头(attention heads),揭示了哪些头协同工作来处理特定的语言模式。
注意力头交互
评估模型鲁棒性(Evaluating Model Robustness): 交互分析揭示了潜在的失效模式。例如,模型可能依赖于特征之间虚假的关联(spurious correlations),而标准归因方法可能会忽略这些关联。
使用SPEX进行的鲁棒性分析
SPEX 提供了一种原则性、可扩展的方法,用于识别机器学习系统中的有影响力的交互作用。通过将全局敏感性分析中的 Sobol 敏感性分析进行适配,SPEX 解决了交互检测中组合复杂性的根本挑战。该方法模型无关的特性和形式化保证,使其在LLM可解释性领域尤其具有价值,因为模型的复杂性往往超出了我们理解其行为的能力。
识别规模化交互作用的能力,对于构建更安全、更可靠的AI系统至关重要。随着模型的复杂性持续增长,像 SPEX 这样的方法将变得越来越重要,以维护透明度和信任。
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。