过去十年,机器学习研究经历了一场深远的方法论变革:从精心设计、数学原理驱动的模型构建,转向了日益经验化、以大规模实验和调参为核心的范式。这种转变在改变AI发展速度的同时,也引发了一个根本问题——数学在这场变革中扮演的角色究竟发生了怎样的变化?The Gradient的这篇文章以“形状、对称与结构”为线索,梳理了这一演变过程。
早期深度学习的研究深受理论数学的引导。诸如卷积神经网络(CNN)对平移不变性的利用、图神经网络(GNN)对对称群(symmetry groups)的建模、以及变分自编码器(VAE)对概率流形(manifold)的刻画,每一处设计都清晰体现了几何与代数的思想。数学家常用的工具——从李群(Lie groups)到拓扑学——曾直接启发架构创新。例如,球形CNN通过群论将卷积推广到非欧几里得空间;等变网络通过对称性约束保证了模型在特定变换下的预测一致性。
然而,随着Transformer的兴起和大规模预训练的成功,研究重心逐渐转向了“扩大规模、堆砌数据”。在“涌现能力”(emergent abilities)被发现后,人们更倾向于通过暴力计算而非精巧数学来解决问题。Liquid Neural Networks、残差网络等虽仍有数学支撑,但更多时候,研究者依靠直觉和试错来调整模型,数学退化为事后的解释工具而非先验指导。
文章特别指出,这种经验主义的繁荣并非对数学的彻底抛弃,而是数学角色的转化。一方面,传统领域(如优化理论、泛化误差分析)仍在提供理论界限;另一方面,新的数学工具正在被引入以应对愈发复杂的架构。例如,神经切线核(Neural Tangent Kernel)用于分析过参数化网络的训练动态;信息瓶颈理论试图解释表示学习;而对称性分析正在被应用于理解注意力机制中位置编码的结构。
归根结底,机器学习与数学的关系正从“建筑师与蓝图”转变为“探险家与地图”。数学不再直接指定模型架构,而是提供观察复杂系统的透镜。未来,当经验方法达到瓶颈时,新一轮的数学突破或许会再次引领潮流——正如物理学史上从开普勒定律到牛顿力学的跃迁一样。对于研究者而言,理解“形状、对称与结构”在算法中的隐含意义,依然是从现象中提炼规律的必备素养。
——
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。