

MOE KLINNS Lab投稿
量子位 | 公众号 QbitAI
AI目田碳基生物双手,以致能让你的手机我方玩我方!
你没听错——这其实即是移动任务自动化。
在AI赶紧发展下,这缓缓成为一个新兴的热点商讨范围。
移动任务自动化哄骗AI精确捕捉并领会东谈主类意图,进而在移动建筑(手机、平板电脑、车机终局)上高效推行万般化任务,为那些因贯通局限、身段条目戒指或身处特殊情境下的用户提供前所未有的方便与撑捏。
匡助视障东谈主群用户完成导航、阅读或网上购物援救老年东谈主使用手机,当先数字范围匡助车主在驾驶过程中完成发送短信或诊疗车内环境替用户完成日常糊口中重大存在的类似性任务……姆妈再也不嫌类似建树多个日期事项会心烦了。
最近,来自西安交通大学智能汇注与汇注安全种植部要点实验室 (MOE KLINNS Lab)的蔡忠闽教会、宋云鹏副教会团队(团队主要商讨场合为智能东谈主机交互、夹杂增强智能、电力系统智能化等),基于团队最新AI商讨后果,立异性建议了基于视觉的移动建筑任务自动化决议VisionTasker。
这项商讨不仅为平常用户提供了更智能的移动建筑使用体验,也展现出了对特殊需求群体的怜惜与赋能。
基于视觉的移动建筑任务自动化决议
团队建议了VisionTasker,一个都集基于视觉的UI潜入和LLM任务蓄意的两阶段框架,用于耐心达成移动任务自动化。
该决议灵验摈斥了暗意UI对视图端倪结构的依赖,提高了对不同应用界面的妥当性。
值得夺观念是,哄骗VisionTasker无需多数数据磨练大模子。
VisionTasker从用户以当然谈话建议任务需求运行职责, Agent运行潜入并推行指示。
具体达成如下:
1、用户界面潜入
VisionTasker通过视觉的门径作念UI潜入来领会妥协释用户界面。
起始Agent识别并分析用户界面上的元素及布局,如按钮、文本框、翰墨标签等。
然后,将这些识别到的视觉信息革新成当然谈话描写,用于解释界面内容。
2、任务蓄意与推行
接下来,Agent哄骗大谈话模子导航,字据用户的指示和界面描写信息作念任务蓄意。
将用户任务拆解为可推行的门径,如点击或滑动操作,以自动鼓舞任务的完成。
3、捏续迭代以上过程
每一步完成后,Agent都会字据最新界面和历史动作更新其对话和任务蓄意,确保每一步的决策都是基于面前崎岖文的。
这是个迭代的过程,将捏续进行直到判断任务完成或达到预设的戒指。
用户不仅能从交互中目田双手,还不错通过可见领导监控任务进程,并随时中断任务,保捏对扫数这个词经过的戒指。
起始是识别界面中的小部件和文本,检测按钮、文本框等元素过头位置。
关于莫得文本标签的按钮,哄骗 CLIP 模子基于视觉瞎想来推断其可能功能。
随后,系统字据 UI 布局的视觉信息进行区块区别,将界面分割成多个具有不同功能的区块,并对每个区块生成当然谈话描写。
这个过程还包括文本与小部件的匹配,确保正确潜入每个元素的功能。
最终,扫数这些信息被迁移为当然谈话描写,为大谈话模子提供明晰、语义丰富的界面信息,使其粗略灵验地进行任务蓄意和自动化操作。
实验评估实验评估部分,该口头提供了对三种UI潜入的比拟分析,分别是:
GPT-4VVH(视图层级)VisionTasker门径对比表示,VisionTasker在多个维度上比其他门径有显贵上风。
此外,在束缚跨谈话应用时也发扬出了高超的泛化能力。
△ 实验1中使用到的常见UI布局
标明VisionTasker的以视觉为基础的UI潜入门径在潜入妥协释UI方面具有昭着上风,尤其是在濒临万般化和复杂的用户界面时尤为昭着。
△跨四个数据集的单步测度准确性
著作还进行了单步测度实验,字据面前的任务情状和用户界面,测度接下来应该推行的动作或操作。
扫尾表示,VisionTasker在所特别据集上的平均准确率达到了67%,比基线门径提高了15%以上。
真正宇宙任务:VisionTasker vs 东谈主类实验过程中,商讨东谈主员瞎想了147个真正的多门径任务来测试VisionTasker的发扬,这些任务涵盖了国内常用的42个应用圭臬。
与此同期,团队还建树了东谈主类对比测试,由12名东谈主类评估者手动推行这些任务,然后VisionTasker的扫尾进行比拟。
扫尾表示,VisionTasker在大多数任务中能达到与东谈主类颠倒的完成率,而且在某些不老练的任务中发扬优于东谈主类。
△实质任务自动化实验的扫尾 “Ours-qwen”是指使用开源Qwen达成VisionTasker框架,”Ours”暗意使用文心一言行为LLM
团队还评估了VisionTasker在不同条目下的发扬,包括使用不同的大谈话模子(LLM)和编程演示(PBD)机制。
VisionTasker 在大多数直不雅任务中达到了与东谈主类颠倒的完成率,在老练任务中略低于东谈主类但在不老练任务中优于东谈主类。
△VisionTasker耐心完成任务的展示
论断行为一个基于视觉和大模子的移动任务自动化框架,VisionTasker克服了现阶段移动任务自动化对视图层级结构的依赖。
通过一系列对比实验,解说其在用户界面发扬上超过了传统的编程演示和视图层级结构门径。
它在4个不同的数据集上都展示了高效的UI暗意能力,发扬出更世俗的应用性;并在Android手机上的147个真正宇宙任务中,非常是在复杂任务的束缚上,发扬了出超过东谈主类的任务完成能力。
此外,通过集成编程演示(PBD)机制,VisionTasker在职务自动化方面有显贵的性能晋升。
现在,该职责已以厚爱论文的样式发表于2024年10月13-16日在好意思国匹兹堡举行的东谈主机交互顶级会议UIST(The ACM Symposium on User Interface Software and Technology)。
UIST是东谈主机交互范围专注于东谈主机界面软件和本领立异的CCF A类顶级学术会议。
原文勾搭:https://dl.acm.org/doi/10.1145/3654777.3676386
口头勾搭:https://github.com/AkimotoAyako/VisionTasker— 完 —
量子位 QbitAI · 头条号签约
关注咱们,第一时代获知前沿科技动态