3 月 9 日,真格基金在北京举办「真格精酿·AI Agent 圆桌派」线下行业沙龙,邀请到了五十余位 AI Agent 领域的前沿研究者和资深从业者,与来自产业界及投资界的专家们一起,从技术、行业应用、创业投资等多维度出发,深入分析 AI Agent 的发展前景、应用场景,发掘产业中潜在的机遇。我们整理出了本次活动中嘉宾的部分精彩发言以及现场观众的问答内容,虽不足以展现 4 个多小时热烈探讨的全貌,但希望可以带给大家一些启发,也欢迎在评论区与我们交流。

01 AI Agent 领域如何构筑护城河

微软亚研院首席研究经理 谭旭

在通过大语言模型完成任务自动化工作时,我们发现核心就是调用 prompt,然后用大语言模型去完成复杂的任务,最终解决一些场景。部分学术研究可能更像是一些概念,并没有太多技术壁垒。

如果真正想要继续深入研究,就需要知道各个环节的反馈。比较有护城河的方向就是深入到各个环节去提升相应的能力,解决实际需求并在实际场景中得到反馈,再提升对应能力,从而逐渐构建起 AI Agent 领域的壁垒。

现在 AI Agent 领域里很缺乏一个比较完整的评估体系,指导大家去进一步设计和优化模型。我们继续研究的初衷,就是想要去构建一个完善的 Benchmarking 来指导该领域的技术发展,去评估哪些 Agent 的机制更合理?哪些 Agent 背后使用的语言模型更好?

02 阻碍相关研究落地的主因在于效果

微软亚研院首席研究经理 谭旭

我觉得做 AI 研究永远有两个指标,一个指标是效果,第二个才是成本或推理成本。制约我们的永远是效果,而不是成本。只要性能或效果能够达到,一定会有非常多的动力和资源投入来解决成本问题。

目前唯一的瓶颈是,现有研究效果无法达到落地指标。比如公司内部聊天工具中也有非常智能的功能,帮助查看会议、收集邮件、拟定邮件等,能够在尝试的过程中为你带来耳目一新的惊艳感。

但在真实的使用场景中,你可能还是不放心将一些重要的回复交给 AI 完成。所以我认为只有 AI 的效果能够真正达到我们的需求标准时,才会被大规模广泛使用。

03 AI Agent 落地数字员工时的挑战

来也科技联合创始人&CTO 胡一川

第一个是模型的能力需要更强。在所有模型的对比中,GPT-4 的效果相较于其他模型来说有较大优势。但是现实中的实际业务场景比评测中的任务要复杂得多。可能在很多场景中,GPT-4 的效果也远远不够。

第二是应用生态需要更开放。影响数字员工发挥价值作用的关键因素,就是它接触的数据、操作的系统、完成的任务是否丰富。

首先我们看到国内的生态还需要很长时间来建立。其次,过去的 API 更多是给人看的,不见得对大模型比较友好。如果未来想要通过大模型操作 API 来实现 AI Agent 形态的数字员工,还需要讨论 API 的具体形态。这是一个目前大家还未能达成共识的问题,甚至有可能诞生很多新的机会。

最后一点是目前的许多工作流程需要被优化和重构。比如一个 HR 想要做招聘,他目前的工作流程与有 AI Agent 的工作流程可能有较大差异。如果根据现有工作流程去设计 AI Agent 服务于招聘,可能就是错的。

04 开发者选择大模型时的三个考量指标

来也科技联合创始人&CTO 胡一川

第一是效果的考量。大模型在通用评测指标上领先是不够的,还需要在特定领域任务中的效果足够好。大模型能够针对真实场景定义出任务,有与真实用户分布接近的数据集,并且能够进行自动化评估和快速优化,这非常重要。如果你在创业中做这个方向,这也有可能成为你的早期竞争力。此外,在一些 To B 的复杂任务场景下,大部分模型离 GPT-4 还差得比较远。

第二是成本的考量。这主要包括使用大模型时的训练成本、推理成本和维护成本。因为目前大部分人还不需要去训练,所以目前可能最重要的就是推理和维护成本。

不同的应用场景下大家对成本的敏感度是不一样的。例如,对于拥有 10 万日活 To C 聊天机器人产品来说,使用 GPT-3.5 API 一天的价格大概是 100 美元,大家可能不太敏感,因为产品已经拥有了 10 万日活,甚至已经可以在此基础上进行变现。

但是在 To B 的场景下,使用 GPT-4 API 处理一张英文发票的成本大概为 0.2 美元,客户就会计算机器是否比人力实惠,价格能否更低。

最后就是关于开源和闭源的考量。我们其实一直存在一个共识,就是闭源模型将会因算力和数据持续领先开源模型。所以服务 B 端客户提供的复杂场景时,我们目前的策略基本上都是先用闭源模型做验证,再考虑基于开源模型建立数据闭环,然后去服务一些无法一直使用闭源模型的客户。

05 回溯移动互联时代 对于中国早期AI创业者的三条建议

真格基金管理合伙人 戴雨森

其一是要灵活,用一种动态的眼光看待技术本身。因为目前技术还在高速发展变化,所以创业公司需要将变化看成一种常态,对变化有充分的准备。移动互联网发展时代,行业发展到后期时大家才有了一些比较具体的判断和固定的套路。

但是在 AI 时代一切皆有可能,所以公司的组织架构和创业方向需要能够根据变化快速做出改变和尝试。

其二在商业化方面,应该先关注用户新增,再思考用户留存。很多人会说在移动互联网时期,留存是最重要的,但这需要以成熟的技术为前提。一切还未知时,就需要首先关注产品是否有很多人想要使用。很多时候随着技术的进化,留存会越来越好。

还有一条是先关注用户价值,再思考商业模式。如果在技术和产品尚未成熟时先思考赚钱,那赚钱的方式会极其有限。但是如果产品真的带来了用户价值,创造了全新的场景,那就可以赚到另外完全不一样的钱。我们始终相信如果你的产品能带来用户价值,就始终有办法从中提取一部分成为商业化收入。“Make something people want”,这也是 YC 的哲学。

每一代技术革命都会催生属于它的新的商业模式,但这往往要在其渗透率到达一定程度时才会呈现。

从历史上看,Google 和 Facebook 都是先做了用户需要且满意的产品,逐渐做大后才思考出商业模式。AI 时代也会有新的属于它的商业模式。Google 这样的大公司可能很难改变原有的商业模式,这时候就需要创业公司去抓住机会。

06 不去抢有限的时间 让用户愿意为价值付费

真格基金 EIR 季逸超

分享一下我对这波 Agent 浪潮的一个核心思考。我们回到 Agent 这个词,它的本意是「代理」。这就意味着无论咱们现在创业做什么,在新平台没有真正出现之前,用户时间和注意力的总量是恒定不变的,那只要是聚焦于 To C 领域,本质上可以说你都与 TikTok 是竞争对手。

传统意义上的「代理」,比如代办签证等各项代理服务——你只需要迅速地说清需求,代理就能在有限的交互时间内帮你实现。这启发我思考,Agent 可能带来的机会是:我们能不能去寻找一类机会,并不需要跟一个产品有很长的直接交互时间,但是我会愿意为它产生的价值去付费?也就是说我们不再跟成熟的产品去抢用户有限的时间,这可能一定程度上重新定义了 DAU 这个概念。这个也是我接下来会一直思考的点。

07 先驱还是先烈? 创业公司如何把握入场时机

真格基金管理合伙人 戴雨森

创业需要寻找一个大趋势和小拐点结合的时机。

大趋势意味着这件事情在不久的将来一定会发生,比如说中国过去发生的城市化、信息化、工业化、全球化等趋势。只有坚持跟进大趋势,才不容易做错,我觉得 AI 就是接下来的大趋势之一。

确定好大趋势后,仍需在其中寻找一个变化的拐点。这需要你比别人提前认知到这个拐点或在拐点发生之后迅速做出行动。太早和太晚可能都会出现问题,太早会变成先烈,而太晚又可能无法抓住时机。

我之前有听说过一句话,「如果你相信一件事情迟早会发生,你就每隔三年做一次。」在我看来,如果你认为一件事五年之后大概率会发生,就可以去做。如果三年后就会发生,往往就已经有人在做了。如果十年后才发生,可能大部分公司都很难撑过这十年。所以从经验主义的角度出发,我认为五年也许是一个对初创公司来说比较好的时间窗口。

来也科技联合创始人&CTO 胡一川

2015 年的时候,来也科技其实就想做一款 To C 的个人助理产品。但是回头来看,那个时候其实技术和市场都尚未成熟,最重要的一点就是我们在中途及时复盘了不足并转到了新的方向——面向 B 端客户通过 RPA(机器人流程自动化)的方式提供更具有显性价值的产品和服务。

但我们并没有完全放弃 C 端的产品。去年大模型推出后,团队就非常兴奋,觉得这件事情又值得再做一次了。所以我也觉得,如果你认为一件事情有价值,那就可以每隔 3-5 年重新尝试一次。

08 未来两年最期待看到该领域有何发展?

来也科技联合创始人&CTO 胡一川

我期待未来两到三年内 AI Agent 能够在某个特别垂直的场景中实现规模化落地。比如帮助大家打客服投诉电话。你的目标非常明确,只需要告诉 Agent 你的经历、遭遇和诉求,Agent 就会完成拨号、等待、交互等一系列过程。

它还有可能会倒逼客服行业变化,客服团队也可能会出现专门接机器人电话的 Agent 客服。久而久之就会变成机器人与机器人交互,这是我相信在未来两三年内可能会出现的场景。

微软亚研院首席研究经理 谭旭

我比较期待 Agent 背后最原始的推动力——底层技术的突破。比如在不久的将来,GPT-5 能否增强技术能力,覆盖我们目前所做的很多系统性工作。

此外,在产品形态层面,我希望未来几年能够出现像钢铁侠中的贾维斯一样的智能助手。虽然目前也有类似的形态,但目前 Agent 更多是服务于办公和企业流程的,我更希望在未来它能够更加接地气,服务于每一个人。