第九便利

基于 Kolmogorov-Arnold 网络的 FPGA 超快机器学习

当大多数机器学习跑在 GPU 上时，亚微秒级延迟和高硬件效率的需求却暴露了 CPU/GPU 架构的根本局限。调度开销、指令优化和动态内存访问使得传统处理器无法满足极低延迟场景。FPGA 凭借其可重构的数字逻辑，成为自定义硬件加速的理想平台。

本文源自 Aarush Gupta 的硕士论文，该工作获得了 FPGA 2026 最佳论文奖及 ICML 2026 论文收录，展示了如何利用 Kolmogorov-Arnold 网络（KAN）在 FPGA 上实现纳秒级推理和亚微秒级在线学习。

FPGA 的核心构件是查找表（LUT，Look-Up Table），这种数字逻辑单元可以高效实现任意布尔函数。与传统处理器顺序执行指令的方式不同，FPGA 将神经网络直接实现为数字逻辑电路——这不是在处理器上"运行"模型，而是将模型"变成"硬件本身。

然而，数字电路以比特为单位操作，这意味着连续数值必须经过量化才能被硬件处理。固定点量化使用 base-2 表示法，用指定数量的分数位来编码小数部分——精度与位宽之间的权衡直接决定了硬件资源的消耗。

FPGA 的 LUT 本质上可以表示任意二元函数——通过学习连续函数并将其离散化转换为 LUT，可以存储每个输入组合对应的输出。这一思路直接催生了 LUT-NN（LUT 神经网络）。

但问题在于：当扩展到多元函数时，LUT 的大小会呈指数级增长（$2^{d_i b_i}$）。一个具有 8 位输入和 8 位权重的 4 输入函数就需要 $2^{32}$ 个条目，这在任何 FPGA 上都是不切实际的。必须找到一种更高效的架构来驾驭 LUT 的表达能力。

Kolmogorov-Arnold 网络（KAN）为解决这一困境提供了优雅的方案。与传统的多层感知器（MLP）不同——后者使用固定激活函数和可学习的标量权重——KAN 用可学习的单变量边函数替代了 MLP 中的固定激活函数。

具体来说：

这种结构使得 KAN 成为 LUT-NN 的理想候选架构——单变量函数天然可以用小型 LUT 高效实现，避免了多变量函数的指数级爆炸问题。

在实现中，边函数使用 B 样条（B-spline）参数化。B 样条具有良好的局部性和平滑性，可以在训练过程中通过反向传播进行可微优化。训练完成后，连续的 B 样条函数被离散化为 LUT，映射到 FPGA 硬件上。

每个激活函数在 FPGA 上用双重 LUT 实现：

这种两层结构在硬件资源消耗和计算精度之间取得了良好的平衡。

在多个分类和回归任务上的实验结果显示：

这一速度提升的意义在于——当 GPU 推理的延迟还在微秒级别徘徊时，FPGA + KAN 的组合已经将推理推入了纳秒时代。这对于高频交易、实时控制、网络数据包处理等对延迟极度敏感的应用场景而言，意味着质的飞跃。

传统 FPGA 上的机器学习只能进行推理，无法训练——这严重限制了其在动态环境中的应用。本工作首次在 FPGA 上实现了真正的在线学习，使得模型可以在部署后持续更新。

关键技术突破包括：

结果：FPGA 上实现了亚微秒级的梯度更新（<100ns），这是业界首次在 FPGA 上达成在线学习的实时能力。

KAN 天然适合 FPGA 上的 LUT-NN 实现——它的单变量边函数结构完美匹配 LUT 的能力范围，避开了多变量 LUT 的指数级扩展问题。超快推理与在线学习的结合，为低延迟、高能效的机器学习部署开辟了全新的方向。

当 GPU 还在功耗和延迟之间艰难取舍时，KAN 驱动的 FPGA 方案已经证明：在特定场景下，我们既不需要牺牲精度，也不需要忍受延迟——两者可以兼得。