简介
ScreenAI 是 Google DeepMind 推出的视觉语言模型,专门用于用户界面(UI)和信息图表理解。仅 5B 参数就在 UI 和信息图表相关任务上达到了 SOTA。
架构设计
- 基于 PaLI 架构改进
- 采用 pix2struct 的灵活分块策略(flexible patching)
- 输入为屏幕截图 + 文本,输出为文本描述或操作
训练数据创新
核心创新:一种新颖的屏幕标注任务(screen annotation task),模型需要识别 UI 元素的类型和位置。
然后用这些文本标注描述屏幕给大语言模型(LLM),自动生成大规模训练数据集:
- 问答数据集(QA):关于屏幕内容的理解问答
- UI 导航数据集:点击某元素完成特定操作
- 摘要数据集:总结屏幕内容
关键结果
- 在 UI 和信息图表任务上达到 SOTA
- 5B 参数规模,适合部署
- 消融实验验证了 pix2struct 分块策略和 LLM 生成数据的效果
- 支持多页文档理解(Multipage DocVQA)
- 支持图表理解(ChartQA)
实际意义
ScreenAI 展示了将视觉语言模型应用于 UI 理解的有效路径。对 UI 自动化测试、无障碍访问、屏幕阅读器、自动化操作等场景有直接价值。也为移动端和小参数模型的 UI 理解提供了基准。
原文:ScreenAI: A Vision-Language Model for UI and Infographics Understanding