新闻资讯
你的位置:开云(中国)Kaiyun·体育官方网站 登录入口 > 新闻资讯 > 体育游戏app平台用于将用户界面截图理解为结构化和易于相识的元素-开云(中国)Kaiyun·体育官方网站 登录入口

体育游戏app平台用于将用户界面截图理解为结构化和易于相识的元素-开云(中国)Kaiyun·体育官方网站 登录入口

时间:2025-04-13 07:31 点击:56 次

体育游戏app平台用于将用户界面截图理解为结构化和易于相识的元素-开云(中国)Kaiyun·体育官方网站 登录入口

当咱们使用蓄意机时,界面上的多样按钮、图标、文本框,险些王人成了咱们与软件“对话”的弁言。

揣摸词,每当你需要自动化完成一项任务,或者依赖AI匡助你搞定繁琐的操作时,经常面对一个问题:这些看似约略的界面元素,经常让AI安坐待毙。

AI能“读懂”笔墨,但却频频无法相识复杂的界面布局,也无法精确地施行你渴望的任务。这不仅闪开发者头疼,也让许多泛泛用户感到无从下手。

不外微软前两天发布了 OmniParser V2 版块,透彻碎裂了这一局限。

可开箱即用的把 OmniParser 与多样 LLM(OpenAI、DeepSeek、Qwen、Anthropic等) 融合使用,简略将屏幕截图转动为 LLM 可读懂的结构化元素,提高多模态大模子的视觉识别准确度。

符合自动化测试、自动化操作等场景任务。

格局简介

OmniParser V2 是微软推出的一款全新升级的界面理解器具,用于将用户界面截图理解为结构化和易于相识的元素,让 AI 简略更准确的操作相应界面。

骨子是一个基于纯视觉的GUI代理。说白了,便是通过它,匡助AI更好地相识和操作蓄意机界面。

与前一代Omniparser比拟,V2在多个方面进行了显赫的优化,尤其是在图标和可交互元素的检测上,让其具备了像素级的屏幕相识才气。

还有一大亮点功能:同步开源了 OmniTool 万能器具,集成在 OmniParser 格局中。

这是个基于 Docke r的 Windows 11 造谣机,将屏幕理解、动作策划和提示施行熔铸成完好意思的职责流。

OmniTool 开箱即用地撑握以下大型谈话模子:OpenAI、DeepSeek (R1) 、Qwen (2.5VL)、Anthropic 。

中枢亮点

• 提高了对袖珍可交互元素的识别准确性

• 优化了图标形容模子,较v1镌汰延长60%

• 平均精确度显赫提高,在ScreenSpot Pro上达到了39.6

快速使用

OmniParser 看成一个约略的纯视觉屏幕理解器具,只需要 2 个枢纽设施即可运转使用。

设施一:土产货部署依赖环境

先将格局代码下载到土产货并解压,参预到解压目次后,施行以下大喊:

conda create -n "omni" python==3.12 conda activate omni pip install -r requirements.txt

设施二:下载模子权重

确保在 weights 文献夹中下载了V2权重(确保字幕权重文献夹名为icon_caption_florence)。若是莫得,请使用以下大喊下载:

rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence  for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done mv weights/icon_caption weights/icon_caption_florence

要运行 gradio 演示,只需运行:

python gradio_demo.py从开发者到泛泛用户的运用

OmniParser V2 和 OmniTool 的推出,显明是面向多个运用场景的。这些器具不仅对开发者友好,相通也能让泛泛用户受益。

以下是几个潜在的运用场景:

• 自动化操作:举例,在一些访佛性较强的职责中,OmniParser V2简略匡助AI相识和操作界面,施行一系列操作。关于日常的办公自动化、批量操作等任务,V2王人能显赫提高扫尾。

• UI测试:在UI开发和测试经由中,OmniParser V2简略快速识别界面元素,匡助开发东谈主员检测和拓荒界面问题。

• 智能助手:OmniParser V2融合大型谈话模子后,不错看成智能助手,匡助用户更高效地与软件进行交互,举例通过语音大喊截止蓄意机界面。

• 无休止运用:关于视力休止或行为未便的用户,OmniParser V2不错通过AI相识界面,并提供语音响应或自动化操作,提高用户体验。

写在终末

Omniparser V2 的发布意味着 AI 与用户界面操作的和会参预了一个新的阶段,它适用于多样截图,包括PC和手机,以及多样运用步伐。

它不仅提高了UI理解的精度和速率,还通过融合远大的LLM,碎裂了传统界面交互的局限。

微软的这一知道体育游戏app平台,不仅为开发者提供了更远大的器具,也为泛泛用户带来了更简单的操作体验。不论是自动化办公、UI测试,已经智能助手运用,Omniparser V2王人能为咱们掀开全新的可能性。

回到顶部
服务热线
官方网站:www.hankyu1.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:16232456251
邮箱:aedfa0e0@outlook.com
地址:新闻资讯科技园4445号
关注公众号

Powered by 开云(中国)Kaiyun·体育官方网站 登录入口 RSS地图 HTML地图


开云(中国)Kaiyun·体育官方网站 登录入口-体育游戏app平台用于将用户界面截图理解为结构化和易于相识的元素-开云(中国)Kaiyun·体育官方网站 登录入口