OmniParser 是通用的屏幕解析工具,可将 UI 的屏幕截图解析并转换为结构化格式,也就是就是让机器能够“看出”屏幕上的各种元素。
OmniParser 之所以能有如此出色的表现,很大程度上要归功于其训练数据的精心设计。
研究团队使用了两个特别的数据集:
-
可交互图标检测数据集:这个数据集是从热门网页中精心挑选并自动标注的,重点标记了可点击和可操作的区域。
-
图标描述数据集:这个数据集则专门设计用来将每个 UI 元素与其对应的功能联系起来。
OmniParser 开源的模型集包括一个经过微调的 YOLOv8 版本和一个经过微调的 BLIP-2 模型,分别用于上述数据集。
评论