Hugging Face,作为 AI 开源圈最为知名的「网红」创业公司,成立仅几年,便在 GitHub 开源了诸多实用开源项目,受到了不少开发者的赞赏。

其中影响力最大的,也被很多人称为初代 GPT 的 Transformers,截至今天,GitHub Star 累积将近 10 万。

这几年,在 Hugging Face 平台上面诞生了无数实用的 AI 预训练模型、数据集。数量之多,品质之高,将其说是 AI 界的 GitHub 也不为过。

今天凌晨,Hugging Face 重磅推出 Transformers Agents,在 AI 技术圈再次掀起波澜!

所有人都可以基于该功能,轻松使用 OpenAssistant、StarCoder、OpenAI 等大语言模型,快速创建一个 AI 智能代理。

官方文档:https://huggingface.co/docs/transformers/transformers_agents

Transformers Agents 里面提供了诸多实用的工具,包括目前 AI 技术应用广泛的文档问答、文本转语音、文本生成图像、网站内容总结、图像分割等一系列工具。

开发者只需完成工具链组装,即可实现许多强大的功能。

比如,你可以通过它,快速实现这么一个功能:

用脚本根据链接,自动抓取某篇文章内容,并生成摘要,再将其翻译成任意一种语言,让 AI 朗读稿件,有需要的话,你还可以让代理为你生成一张配图。

一个基于 AI 能力,可快速报道各种新鲜资讯的播客系统,便能横空出世!

此外,该代理还支持图像转文本功能,你可以通过给定一张图像,让 AI 读取图像信息,甚至可以大批量为图像自动生成文本,方便后续检索。

这个功能调用有多简单,在你安装完代理之后,一条命令即可搞定:

agent.run("Caption the following image", image=image)

比如,你提供给它一张海狸图像,AI 便能快速生成标题。

不仅如此,该代理还可以接受更为复杂的查询方式,通过对话,就能让 AI 实现文字生成图像、网站摘要朗读、PDF 总结等功能。

具体实现,可围绕一系列提示词进行构建,流程如下:

  • 明确告知代理的主要任务;
  • 给代理一个工具;
  • 向代理展示示例;
  • 分配任务,让代理通过思维连推理与理解任务,并输出 Python 代码。

除了上面提到的功能,Transformers Agents 还内置了以下这些实用工具:

  • 文档问答功能;
  • 语音转文本、文本转语音;
  • 文本功能(分类、摘要、翻译、下载、问答);
  • 图像功能(生成、转换、字幕、分割、放大、问答);
  • 基于文本直接生成视频,扩展性强。

我们可以通过这些工具,轻松搭配,实现一款可以灵活定制的 AutoGPT,人手一个 AI 智能代理,在不同行业挖掘更多丰富的应用场景。

Hugging Face 对此代理的安装使用也提供了详细文档,不过由于每个人电脑配置不同,这里我建议大家用 Google Colab 进行尝试。

下面跟大家讲下具体使用方式。

安装 & 使用

首先,打开 Hugging Face 提供的 Colab 地址:

https://colab.research.google.com/drive/1c7MHD-T1forUPGcC_jlwsIptOzpG3hSj

你能看到如下所示界面:

点击「播放」按钮,运行设置,可以看到 Transformers 指定了 v4.29.0 的最新版本,因为目前这个 Agents API,还在实验阶段,所以只在新版本提供支持:

等待一两分钟后,它便会弹出输入框。我们需要在这里填入 Hugging Face 提供的 Token。

Token 可到这个地址生成:https://huggingface.co/settings/tokens

填写完成后,点击「Login」登录。

然后再执行下一步,运行并初始化一个 Agent:

运行完成,会生成一个输入框,在这里填写 OpenAI 的 API Key。

API Key 可在这里生成:https://platform.openai.com/account/api-keys

输入完成后,按下回车键,让代码读取 API Key:

当你看到提示「OpenAI is initialized ?」时,表示代理的初始工作已经完成。

你可以在该 Colab 中,体验 Transformers Agents 的各项功能。

比如,最常见的,基于文本生成图像。让代理给我们生成一张漂浮在水面上的船:

agent.run("Generate an image of a boat in the water")

它便会遵循 Prompt 指令,开始自动生成图像:

Hugging 官方在 Colab 中给出了不少示例,包括为图像生成标题、根据文本生成语音、用对话模式跟图像交流等等,有时间的话,大家也可以逐个试玩一下。

写在最后

之前 AutoGPT 大火,很多人尝试用它来分析金融数据、自动编写爬虫脚本、抓取数据做市场调研、生成可视化报告等等。

但是,由于 AutoGPT 做的是一个通用性实验方案,因此很多东西在定制性上比较差,这就导致脚本在实际运行中,会出现很多不可控因素。

比如,脚本会自动给你生成一堆乱七八糟的文件,跑了半天还是没抓到重点,每次运行都需要重新再来一遍,内容产出性价比很低等等。

如果你稍微懂点开发,未来利用 Transformers Agents 就能搭建一个专属的 AI 智能助理,让它帮你完成各种不同领域的特定工作。

这样无疑会减少很多 Token 消耗,任务执行的准确度与生产质量也会再上一层。

正如我之前所说,随着各项 AI 技术的成熟与进步,在圈内会出现越来越多的解决方案,很多工具也将变得越来越好用。基于此,我们搭建项目的成本也越来越低。

工欲善其事必先利其器,一个称手的工具,能够减少我们很多工作量,大幅提升生产力。