近日,通义实验室推出了手机端智能体Mobile-Agent。输入一句指令,AI可以作为智能中枢,根据指令在手机上自动规划和操作各种APP,操作场景包括但不限于导航、购物、组织电话会议、更改系统设置,其准确程度如同人类在操作手机一般,通过Mobile-Agent,用户将拥有一个手机端的超级智能助理,通过指令就可以使用手机端已授权app完成任务。

24105053-2024-02-24T02:51:14.png

技术亮点

  • 纯视觉解决方案:仅需感知截屏内容即可生成操作,不依赖APP的UI布局文件或系统底层代码
  • 操作场景不受限:可以在手机桌面或APP内部进行操作,从而完成更复杂的操作内容
  • 视觉感知工具定位:使用文字识别和图标识别模块用于定位需要操作的区域
  • 即插即用:无需任何探索和训练过程

Github:
https://github.com/X-PLUG/MobileAgent
https://github.com/modelscope/modelscope-agent

论文:
https://arxiv.org/abs/2401.16158

Demo:
https://www.modelscope.cn/studios/wangjunyang/Mobile-Agent/summary
https://huggingface.co/spaces/junyangwang0410/Mobile-Agent