DeepSeek 导航网:OmniParser 是微软研究院推出的开源屏幕解析工具,旨在通过纯视觉方式将用户界面(UI)截图转换为结构化数据,以增强大型语言模型(如 GPT-4V)在 GUI 自动化任务中的性能。 OmniParser 能与各种最先进的 LLM 一起使用:OpenAI (4o/o1/o3-mini)、DeepSeek R1、Qwen 2.5-VL 和 Anthropic (Sonnet)。
应用场景
- 自动化测试:自动识别 UI 元素并执行测试脚本,提高效率和覆盖率。
- 虚拟助手:解析屏幕内容后,大模型可指导完成预订、搜索等操作(示例:在 Tripadvisor 网页筛选餐厅并收藏行程)。
- 辅助技术:为视障用户提供屏幕阅读支持,将界面元素转化为语音描述。
- 跨平台开发:验证 UI 设计在不同设备和操作系统中的一致性。
部署与使用
快速体验
官方提供 在线 Demo 可直接试用。
本地部署
通过 Git 克隆仓库并安装依赖,下载预训练模型权重。
运行 gradio_demo.py
启动本地服务。
项目地址
- Github:访问
API