清华大学推 AutoDroid-V2:AI 离线在线协同,优化挪
作者:[db:作者] 发布时间:2025-01-03 08:34
IT之家 1 月 2 日新闻,清华年夜学智能工业研讨院(AIR)于 2024 年 12 月 24 日宣布论文,先容推出 AutoDroid-V2 AI 模子,在挪动装备上应用小言语模子,明显晋升了天然言语把持的主动化水平。该体系采取基于剧本的方式,应用装备端小型言语模子(SLM)的编码才能,高效履行用户指令。比拟依附云端年夜型言语模子(LLM)的传统方式,AutoDroid-V2 在效力、隐衷跟保险性方面均有明显上风。名目配景年夜型言语模子(LLMs)跟视觉言语模子(VLM)经由过程天然言语下令,彻底转变了挪动装备把持的主动化,为庞杂的用户义务供给懂得决计划。主动化把持装备主流采取“逐渐 GUI 智能体”(Step-wise GUI agents)方法,经由过程在每个 GUI 状况查问,LLM 停止静态决议跟反思、连续处置用户的义务,并察看 GUI 状况直至实现来停止操纵。但这种方法重大依附基于云真个模子,在分享团体 GUI 页面时,还存在隐衷跟保险危险,别的还存在大批的用户端流量耗费以及昂扬的效劳器端会合效劳本钱等重大成绩,妨碍年夜范围安排 GUI 智能体。名目简介差别于传统的逐渐操纵,AutoDroid-V2 依据用户指令天生多步调剧本,一次性履行多个 GUI 操纵,年夜幅增加了查问频率跟资本耗费。应用装备上的小型言语模子停止剧本天生跟履行,防止了对强盛云端模子的依附,无效维护了用户隐衷跟数据保险,并下降了效劳器端本钱。该模子在离线阶段会构建利用顺序文档,包括 AI 领导的 GUI 状况紧缩、元素 XPath 主动天生跟 GUI 依附剖析,为剧本天生奠基基本。别的用户提交义务恳求后,当地 LLM 天生多步调剧本,由特定域说明器履行,确保牢靠高效的运转。机能基准测试上,在 23 个挪动利用上测试 226 项义务,与 AutoDroid、SeeClick、CogAgent 跟 Mind2Web 等基线比拟,义务实现率进步 10.5%-51.7%。在资本耗费方面,输入跟输出 token 耗费分辨增加至 43.5 分之一跟 5.8 分之一,LLM 推理耽误下降至 5.7~13.4 分之一。跨 LLM 测试中,在 Llama3.2-3B、Qwen2.5-7B 跟 Llama3.1-8B 上表示分歧,胜利率 44.6%-54.4%,反向冗余比 90.5%-93.0%。IT之家附上参考地点AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation告白申明:文内含有的对外跳转链接(包含不限于超链接、二维码、口令等情势),用于通报更多信息,节俭甄选时光,成果仅供参考,IT之家全部文章均包括本申明。 ]article_adlist-->   申明:新浪网独家稿件,未经受权制止转载。 -->
电话
020-66888888