OmniParser – 微软推出的屏幕解析工具
Agent 框架
OmniParser – 微软推出的屏幕解析工具

DeepSeek 导航网:OmniParser 是微软研究院推出的开源屏幕解析工具,旨在通过纯视觉方式将用户界面(UI)截图转换为结构化数据,以增强大型语言模型(如 GPT-4V)在 GUI 自动化任务中的性能。 OmniParser 能与各种最先进的 LLM 一起使用:OpenAI (4o/o1/o3-mini)、DeepSeek R1、Qwen 2.5-VL 和 Anthropic (Sonnet)。

应用场景

  • 自动化测试:自动识别 UI 元素并执行测试脚本,提高效率和覆盖率。
  • 虚拟助手:解析屏幕内容后,大模型可指导完成预订、搜索等操作(示例:在 Tripadvisor 网页筛选餐厅并收藏行程)。
  • 辅助技术:为视障用户提供屏幕阅读支持,将界面元素转化为语音描述。
  • 跨平台开发:验证 UI 设计在不同设备和操作系统中的一致性。

部署与使用

快速体验

官方提供 在线 Demo 可直接试用。

本地部署

通过 Git 克隆仓库并安装依赖,下载预训练模型权重。

运行 gradio_demo.py 启动本地服务。

项目地址

相关导航