首页 / 文章 / ScreenAI：用于UI和信息图表理解的视觉语言模型

AI技术

ScreenAI：用于UI和信息图表理解的视觉语言模型

✍️ zhirenhun 📅 2026/6/5 👁 94 阅读 ⏱ 3 分钟

ScreenAI：用于UI和信息图表理解的视觉语言模型

简介

ScreenAI 是 Google DeepMind 推出的视觉语言模型，专门用于用户界面（UI）和信息图表理解。仅 5B 参数就在 UI 和信息图表相关任务上达到了 SOTA。

架构设计

基于 PaLI 架构改进
采用 pix2struct 的灵活分块策略（flexible patching）
输入为屏幕截图 + 文本，输出为文本描述或操作

训练数据创新

核心创新：一种新颖的屏幕标注任务（screen annotation task），模型需要识别 UI 元素的类型和位置。

然后用这些文本标注描述屏幕给大语言模型（LLM），自动生成大规模训练数据集：

问答数据集（QA）：关于屏幕内容的理解问答
UI 导航数据集：点击某元素完成特定操作
摘要数据集：总结屏幕内容

关键结果

在 UI 和信息图表任务上达到 SOTA
5B 参数规模，适合部署
消融实验验证了 pix2struct 分块策略和 LLM 生成数据的效果
支持多页文档理解（Multipage DocVQA）
支持图表理解（ChartQA）

实际意义

ScreenAI 展示了将视觉语言模型应用于 UI 理解的有效路径。对 UI 自动化测试、无障碍访问、屏幕阅读器、自动化操作等场景有直接价值。也为移动端和小参数模型的 UI 理解提供了基准。

原文：ScreenAI: A Vision-Language Model for UI and Infographics Understanding

——

🧑‍💻

zhirenhun

一个热爱技术的程序员，喜欢分享前沿AI知识和开发经验。

多模态 UI理解视觉语言模型 Google

KVarN：华为为 vLLM 打造的原生 KV-cache 量化后端

Gemma 4 QAT 模型：优化模型压缩，提升移动端与笔记本电脑效率

📌 相关推荐

提示注入的理论基础：角色混淆（Prompt Injection as Role Confusion）

GLM-5.2 本地部署指南

Moebius: 0.2B 轻量级图像修复框架，实现10B级别的性能

← 返回文章列表