+
DevOps研发效能
媒体矩阵
开源中国APP
授权协议 CC-BY-4.0
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织 微软
地区 不详
投 递 者
适用人群 未知
收录时间 2024-10-29

软件简介

OmniParser 是通用的屏幕解析工具,可将 UI 的屏幕截图解析并转换为结构化格式,也就是就是让机器能够“看出”屏幕上的各种元素。

OmniParser 之所以能有如此出色的表现,很大程度上要归功于其训练数据的精心设计。

研究团队使用了两个特别的数据集:

  1. 可交互图标检测数据集:这个数据集是从热门网页中精心挑选并自动标注的,重点标记了可点击和可操作的区域。

  2. 图标描述数据集:这个数据集则专门设计用来将每个 UI 元素与其对应的功能联系起来。

OmniParser 开源的模型集包括一个经过微调的 YOLOv8 版本和一个经过微调的 BLIP-2 模型,分别用于上述数据集。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(7) 发布并加入讨论🔥
发表了资讯
2025/02/17 15:51

微软发布 OmniParser V2,将任意 LLM 变成可操作计算机的 AI Agent

微软近日发布了 OmniParser V2 版本,该工具能够将各种 LLM 变成可操控计算机的 AI Agent。 图形用户界面(GUI)自动化需要能够理解并交互于用户屏幕的 Agent。然而,使用通用 LLM 模型作为 GUI Agent 会面临几个挑战:1)可靠地识别用户界面中的可交互图标;2)理解屏幕截图中各种元素的语义并准确地将预期操作与屏幕上的相应区域关联起来。 OmniParser 通过将 UI 屏幕截图从像素空间“分词”为可由 LLMs 解析的结构化元素来弥...

1
4
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
7 评论
7 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部