近年来,大型语言模型(LLM)Agent正在彻底改变软件工程的格局。这些智能体展现出了惊人的能力,能够在宽松规范(loose specifications)下自主生成功能完备的代码。
然而,当目标从"能跑起来"转向"能上生产"时,这种宽松的容忍度就成了致命的弱点。生产级后端系统不仅要求代码功能正确,还必须严格遵守结构性约束:架构模式、API契约、数据库集成、ORM映射。
研究选取了80个绿地生成任务和20个功能实现任务,覆盖8个Web框架。通过双重验证机制(端到端行为测试+静态验证器)精确量化结构约束累积对Agent性能的影响。
最强Agent配置的断言通过率从基线到完全指定任务平均下降30个百分点,弱配置几乎归零。框架敏感性分析显示:Agent在Flask等显式框架表现好,在FastAPI/Django等约定驱动框架显著下降。
错误根源分析发现:数据层缺陷(错误查询组合、ORM运行时违规)占逻辑失败的45%,是最主要的失败原因。
本研究揭示:同时满足功能性和结构性需求仍是LLM Agent面临的开放性挑战。
——
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。