Mobile-Agent:手机端智能体
近日,通义实验室推出了手机端智能体Mobile-Agent。输入一句指令,AI可以作为智能中枢,根据指令在手机上自动规划和操作各种APP,操作场景包括但不限于导航、购物、组织电话会议、更改系统设置,其准确程度如同人类在操作手机一般,通过Mobile-Agent,用户将拥有一个手机端的超级智能助理,通过指令就可以使用手机端已授权app完成任务。
技术亮点
- 纯视觉解决方案:仅需感知截屏内容即可生成操作,不依赖APP的UI布局文件或系统底层代码
- 操作场景不受限:可以在手机桌面或APP内部进行操作,从而完成更复杂的操作内容
- 视觉感知工具定位:使用文字识别和图标识别模块用于定位需要操作的区域
- 即插即用:无需任何探索和训练过程
Github:
https://github.com/X-PLUG/MobileAgent
https://github.com/modelscope/modelscope-agent
论文:
https://arxiv.org/abs/2401.16158
Demo:
https://www.modelscope.cn/studios/wangjunyang/Mobile-Agent/summary
https://huggingface.co/spaces/junyangwang0410/Mobile-Agent