“The future of autonomous agents looks like everybody becoming a manager.”

Yohei Nakajima, creator of BabyAGI

最近一直在作为一个狂热粉丝 Follow Autonomous Agents 项目:

从最开始的鼻祖 Langchain;

到第一次见识到将 Langchain 以及 prompt 工程应用的出神入化的 Visual-ChatGPT(现已和微软另一个工作 TaskMatrix.AI 合并成为 TaskMatrix);

然后是微软联手 HuggingFace 进一步的推进工作 JARVIS|HuggingGPT;

接着是寒武纪生物大爆发般的项目 AutoGPT、BabyAGI、AgentGPT、MemoryGPT、TeenageAGI、Godmode、Cognosys...以及今天的主角 NexusGPT!

NexusGPT 是今天(开始写文章的时候)最新公开的一个项目,也是笔者觉得是目前为止见到的最有创造力的 Autonomous Agents 项目。

在写这篇文章的同时也很高兴与项目作者取得了联系,成为了在 Discord 社区内的首位内测用户,后续更多的内测体验也分享给大家。

在正式介绍 NexusGPT 之前,为了阅读的连续性,先简单地介绍一下 AutonomousAgents 以及流行的几个项目。

如果对 Autonomous Agents 已经有认知了,可以直接翻到文章最末尾第 5 章节进行阅读。


1. 什么是 Autonomous Agents?

在这里我们采用 Matt Schlicht 的《The Complete Beginners Guide To Autonomous Agents》这篇文章里面的定义。

Autonomous agents are programs, powered by AI, that when given an objective are able to create tasks for themselves, complete tasks, create new tasks, reprioritize their task list, complete the new top task, and loop until their objective is reached.

大概就是你给 Autonomous Agents 一个任务,比如发一个关于 Autonomous Agents 最新进展的 twitter。他会先去理解分解这个任务目标,然后设定实施计划以及这几个计划的优先级,同时去辩证『冷静』的反思计划有没有漏洞,并将反思应用到执行过程中,然后就是自己不断的去换着关键词搜索总结最近的报道文章,然后是汇总、反思,看看有没有什么遗漏,最后组织成适合推文的语言自动发送。

全过程人类的输入可能就只有最开始不到 100 字的一个命令。是不是想象空间很大?

这边用一张 BabyAGI 作者 Yohei Nakajima 的图来直观展现这个过程。

2. Autonomous Agents 和 ChatGPT 有什么区别?

同样先来看看几位大佬的观点

... and now over 100 million people use ChatGPT and websites like it. I am now similarly predicting that autonomous agents will be widely adopted in the future, but this prediction won’t take seven years to come true, it will happen blazingly fast.

Matt Schlicht, CEO and co-founder of Octane AI

“[Intelligent] autonomous agents are the natural endpoint of automation in general... Once these agents become highly sophisticated and reliable, it is easy to imagine an exponential growth in automation across fields and industries.”

Bojan Tunguz, Machine Learning at NVIDIA

如果说 ChatGPT 提供了对话式的这种 AI 交互方式的话,那么 Autonomous Agents 提供的是更进一步的交互方式,你所需要的做的就是给 AI 一个目标,然后剩下的就是 AI 自己去调研完成任务。同时在其执行任务的过程中时不时的根据你的需要 approve 一下他的计划。

就像开头那句引文,人类此时扮演的角色更像是一个 Manager!

3. Autonomous Agents 核心技术点有哪些?

Autonomous 的核心技术点大概有三个 LLM + Longterm Memory + Prompt Engineering + Plugins + 递归的思想。在这里简要介绍,不做展开。

LLM 是其最核心的能力,无论推理还是问答以及后续的 Prompt 工程,都强依赖于 LLM 的能力。目前这些 Autonomous Agents 类项目普遍依赖于 GPT-4 或者 GPT-3.5-turbo 的 API。但是目前来看,是真的耗费 token 啊。完成一个任务大概调用了 213 次 API,每次调用 token 消耗量平均 10000 左右。

LongtermMemory 是 LLM 固有的一个缺点,当然也是 AutonomousAgents 需要去克服的一个点,目前这方面也有了初步的解决方案——用 embedding vector database 的方式去做,比如 chroma、pinecone、redis、milvus 这些。当然,如果对性能要求不是很高的话,也可以自己用手撸一个本地的 cache。

PromptEngineering 同样也是比较 tricky 的地方,需要设定一 SystemPrompts 让 LLM 给出对应的推理思路,下面是 AutoGPT 的部分 System Prompt。

Plugins 就各种各样了,比如 google search 的 API、python executor 的 API、各种深度学习模型的 API、理论上所有的 SAAS 服务都可以作为 Plugins 接入 Autonomous Agents,重要的是如何保证 Agents 能够选择最恰当的 plugins,这点需要强大的 Prompt 工程以及 LLM 本身的能力。目前为止,Auto-GPT 支持的 Commad(Plugins)如下图:

递归的思想很奇妙,这里不做展开,用之前发在朋友圈里面的一句话做概括:

4. 目前流行的几个 Autonomous Agents 介绍

4.1 Langchain

LLM 工具的开源鼻祖,目标是辅助大家开发 LLM 应用,Agents、Tools、Plugin、Memory、Data Augmented 早早地就提出开源了,为 Autonomous Agents 生态的爆发奠定了非常扎实的工作基础,值得给予最大的 respect!

不过代码也是真的有点复杂,不知道这是不是最近几个 Autonomous Agents 项目没有用 langchain 的原因。

github 项目地址:

https://github.com/hwchase17/langchain

4.2 Visual-ChatGPT | TaskMatrix & JARVIS | HuggingGPT

微软一脉相承的工作,用 LLM 以及 Prompt 工程阶段性的解决多模态问题,核心思路是通过 LLM 的理解以及推理能力,分配相应的任务给对应的模型,比如:文生图的任务分配给 Stable Diffusion 模型、图生图分配给 ControlNet、图文问答分配给 Blip 等等,不过只能算是初级的 Agnents,还没有较为明显的 continuous 或者 Autonomous 的任务编排机制。

github 地址:

https://github.com/microsoft/TaskMatrix

https://github.com/microsoft/JARVIS

关于 Visual-ChatGPT 的实验记录可以前往笔者的 github repo:

https://github.com/thinkthinking/agi-playground

4.3 AutoGPT

AutoGPT 是由一位游戏开发者 SigGravitas 开源的一个 AGI 项目。

说 AutoGPT 是当今 AI 开源界最耀眼的明显毫不为过!笔者从 1 万 star 追星一直追到了 10 万 star,天天在工作群里面发 AutoGPT 的 Star 进展都被同事吐槽是不是 AutoGPT 派来挖人的(哈哈)!

Star 数突破 10 万大关仅仅用了 36 天!在 Githu 史上估计也是一个纪录!相比其他项目,其增长趋势是接近垂直于时间轴的!来张几个火爆的 AI 项目的对比图:

最重要的是大量开发者涌入之后迭代速度是真的快,几乎一天发一版。最新已经把 Plugin Template 也做了出来,这个项目最终发展成什么样,想象空间实在是太大了!

如果你想入门 AutoGPT,不知道选哪个项目,无脑选这个项目就对了!

github 地址:

https://github.com/Significant-Gravitas/Auto-GPT

最近各个公众号介绍 Auto-GPT 已经够多了,auto-gpt 核心步骤主要有 thoughts、reasoning、plan、criticism、next action、system 这几步,然后就是这几步的不断自动迭代。放一个其最小单元执行过程:

在这里不赘述,后续再持续开文章解读 AutoGPT。

4.4 BabyAGI

BabyAGI 是由 Yohei Nakajima 开源的一个 AGI 项目,是一个非常优雅的项目,初始版本仅用 105 行代码就实现了 Baby 版本的 AGI。

同时作者也非常认真地阐述了背后的设计思想,这个项目同时也是后续几个商业化项目的重要参考工作。

github 地址:

https://github.com/yoheinakajima/babyagi

4.5 AgentGPT & Godmode & Cognosys

之所以把这几个项目放在一起,主要是这几个都是带 UI 界面的非常用户友好的 Autonomous Agents 项目,像 ChatGPT 那样使用起来顺滑。

不过这几个项目也有些许差别,在这里简要介绍一下。

AgentGPT:如果你想找一个开源的带 UI 界面的 Autonomous Agents 项目,那就来找他吧。界面做的非常简洁大方,新的功能也在不断提 PR 中。

项目地址:

https://agentgpt.reworkd.ai/

Godmode:同样是一个带用户界面的 Autonomous Agents,不过代码没有开源。正如其名字,使用这个产品的时候确实有点老板的感觉,需要做的就是 review!相比 AgentGPT,其对设置项的细粒度更进一步,比如可以选择性的接受或者拒绝 Agents 提供的 Plan,同时也可以随时给出自己的 Feedback 让 Agents 别走偏。

项目地址:

https://godmode.space/

Cognosys:与 Godmode 一样没有开源,不过代码没有开源。使用体验也和 Godmode 比较接近,同属于 Autonomous Agents 的 UI 化。

项目地址:

https://www.cognosys.ai/

5. NexusGPT

最后,总算来到了写这篇文章的初心——介绍 NexusGPT!

从各个方面来说,笔者认为 AI 的发展需要或者会朝着 AI 平权(民主)、AI 个性化的角度去发展,即让人人都可以享受 AI 的便利,人人都有一个自己的 AI 助理!而这个对应的就是 Autonomous Agents。

未来可能每个人或自己制作极度个性化的 Autonomous Agents,当然也可以选择『雇佣』一些『专业』的 Autonomous Agents 来临时的完成自己或者公司需要的某些任务。

同时有更大胆的观点认为,在中长期,在 Auto-GPT 的帮助下可能 2 个人就可以开个原先需要 100 个人的公司了;而往后,AutoGPT 可能会替代大部分的工作。

“1-2 people startups that use a combination of AutoGPTs and tools like ChatGPT. And they’ll be able to make the kind of progress you’d previously had expected from a 100 person startup. Long-term I believe that most work can and will be replaced by AutoGPTs.”

Nathan Lands, Founder of Lore

此时,是不是明白为什么 NexusGPT 这么有趣了!NexusGPT——世界首个人工智能自由职业者平台!

这里的自由职业者不是真人!其实背后都是一个个 Autonomous Agents,不过他们在不同领域的数据集上进行了 Finetune 或者接入了不同的特殊能力的 API,让他们成为了一个个充满个性的 AI Agents!而这些 Agents 可以被雇佣成为你的助手!而你也可以将自己的 AI 助理派发到这个平台去进行『求职』!

让我们先一睹具体使用过程吧!

首先是网站界面,俨然一个筛选简历的平台,拥有海量的『AI 自由职业者』的简历供你选择,他们的头像应该是 AIGC 生成的,名字应该也是偏随机的。不过乍一看,还以为是一个个真人。几乎覆盖了各个细分的职业。

然后是点开其中一个人的简历,从能力概括,到技能标签,到个人详细介绍,一应俱全!俨然一个拥有丰富经验的销售团队经理!如果不告诉你这是一个 AI Agent,你能区分开吗?

然后点击 Start Chatting 就可以跳转到 Telegram 进行『面试』啦,如果觉得这个『专家』很符合你的心意,那么恭喜你!他将成为你的私人 Agent!

不过由于该项目还在内测期,telegram 的 bot 暂时关掉了,在这里放上作者的演示视频:

可以看到,整体使用过程还是和 AutoGPT 以及 Godmode 这些 Autonomous Agents 项目非常类似的。

目前作者已经在 Discord 社区开设了相应的频道,内测用户也正在慢慢地邀请加入。后续有新的进展也会在朋友圈或者公众号和大家及时更新。

附上项目链接:

https://nexus.snikpic.io/

**6. Last but Not Least**

最后,同样是 Matt Schlicht 的《The Complete Beginners Guide To Autonomous Agents》这篇文章里面的一幅图,是关于其对 Autonomous Agents 应用场景的一些梳理:

依然相信:这,就是未来!

“AI agents will be everywhere. Billion-dollar companies will come from a small team that deploys ai agents.”

Ben Tossell, Founders of Ben’s Bites AI Newsletter


本文来源:https://mp.weixin.qq.com/s/JkdaFFuKx2KHioh-jfZXdA