首页 / 文章 / ScreenAI:用于UI和信息图表理解的视觉语言模型
← 返回
AI技术

ScreenAI:用于UI和信息图表理解的视觉语言模型

✍️ zhirenhun 📅 2026/6/5 👁 94 阅读 ⏱ 3 分钟
ScreenAI:用于UI和信息图表理解的视觉语言模型

简介

ScreenAI 是 Google DeepMind 推出的视觉语言模型,专门用于用户界面(UI)和信息图表理解。仅 5B 参数就在 UI 和信息图表相关任务上达到了 SOTA。


架构设计

  • 基于 PaLI 架构改进
  • 采用 pix2struct 的灵活分块策略(flexible patching)
  • 输入为屏幕截图 + 文本,输出为文本描述或操作

训练数据创新

核心创新:一种新颖的屏幕标注任务(screen annotation task),模型需要识别 UI 元素的类型和位置。

然后用这些文本标注描述屏幕给大语言模型(LLM),自动生成大规模训练数据集:

  • 问答数据集(QA):关于屏幕内容的理解问答
  • UI 导航数据集:点击某元素完成特定操作
  • 摘要数据集:总结屏幕内容

关键结果

  • 在 UI 和信息图表任务上达到 SOTA
  • 5B 参数规模,适合部署
  • 消融实验验证了 pix2struct 分块策略和 LLM 生成数据的效果
  • 支持多页文档理解(Multipage DocVQA)
  • 支持图表理解(ChartQA)

实际意义

ScreenAI 展示了将视觉语言模型应用于 UI 理解的有效路径。对 UI 自动化测试、无障碍访问、屏幕阅读器、自动化操作等场景有直接价值。也为移动端和小参数模型的 UI 理解提供了基准。


原文:ScreenAI: A Vision-Language Model for UI and Infographics Understanding

——

🧑‍💻

zhirenhun

一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。

多模态 UI理解 视觉语言模型 Google
← 上一篇
KVarN:华为为 vLLM 打造的原生 KV-cache 量化后端
下一篇 →
Gemma 4 QAT 模型:优化模型压缩,提升移动端与笔记本电脑效率

📌 相关推荐

提示注入的理论基础:角色混淆(Prompt Injection as Role Confusion)
2026/6/23
GLM-5.2 本地部署指南
2026/6/23
Moebius: 0.2B 轻量级图像修复框架,实现10B级别的性能
2026/6/23
← 返回文章列表