从第一性原理看大模型Agent技术
第一性原理 (First Principles) 是一种基本的、不可推导的命题或假设,构成了一个理论体系或解释的基础。可以理解为「探索问题的本质」。
想了解 Agent 技术原理但不想啃论文?那 @邓范鑫 这次分享一定合你胃口!
视频时长1个小时,文稿字数过万,将近 40 份参考资料/文献,是 Agent 技术科普的入门必读指南。
文章梳理了 Agent 技术的发展路径,以及这条时间线上的主要研究和关键结论。脉络清晰,环环相扣。此外,还介绍了通用智能原理、面向目标架构这个两个根本性问题,以及基于的架构缺陷和未来可能的发展方向
开篇亮明观点:未来5到10年可能有一场大变局:99%的开发/设计/文字工作将被AI接管,人类开始进入智能时代。而智能时代的核心载体,不是网站也不是 App,而是 Agent (智能体)。
LLM Agents 发展历程
- Prompt 工程:大模型刚出来的时候被当作一种编程语言,用户通过角色扮演、零样本提示、少样本提示等工程技巧,引导大模型的输出。
- Prompt 外挂:为了克服大模型自身的诸多局限性 (如不能及时更新知识、上下文有限等),用户开始通过加入插件 (向量数据库)、调用外部工具 (ChatGPT Plugins 开放体系) 来增强功能。
- 分解与组合:大模型推理能力存在显著天花板,因此完成复杂任务需要考虑执行策略,比如分解和组合 (MapReduce 模式、思维链 CoT /思维树 ToT / 思维图 GoT、累计推理等)。
- 反馈:任务的分解和组合策略缺少与外界互动的能力,因此需要借鉴 ReACT 增加反馈机制,还可以借鉴强化学习 Reflection 机制积累经验 → 对应 OpenAI 推出的 Funtion Calling。
- Agent:2023年4月 AutoGPT 横空出世,这种更彻底的技术变革正式宣布了 Agent 时代的到来。
- Multi-Agent:多智能体也应运而生,比如「斯坦福小镇」、MetaGPT、清华 ChatDev 等项目,都展示了多角色智能体在群体智能涌现方面的潜力。
- 技术发展脉络与现状:以上梳理了技术发展至今的脉络,不过现有大模型和 Agent 仍然面临着诸多挑战挑战。
通用智能基本原理
- 大脑的系统1和系统2:系统1 (直觉系统) 包含快速思考、神经网络连接主义、长期记忆、深度学习、亚符号、潜意识和非结构化数据;系统2 (理性系统) 包含意识、思考、符号主义、逻辑推理图灵、机制结构化和模型。
- 在构建 Agent 时,可以参考这两种系统的思维框架:在系统2中反复出现的行为会逐渐沉淀到系统1中,也就是同样的动作反复训练直至变成肌肉记忆和反射 → 称为Shortcut。
面向目标架构
- 随着人类的生产方式的变化,软件工程可能正在逐步演化为智能体工程 (Agent Engineering),即以AI为中心+人类做辅助。
- 例如,传统的用户界面,由于其垂直的任务层级架构,每一层都需要人类逐一生成,未来这个过程可能会被智能体自主生成并改良。
前瞻性分析
- Central Executive:提出建立中央执行机构的概念,以增强Agent的规划和执行能力,包括内部加工过程的外部化。
- Memory:强调记忆机制的重要性,包括记忆的内化、遗忘功能,以及长短时记忆与工作记忆之间的关系。
- Sensory:指出多模态输入的必要性,以及时间感知在运动控制任务中的重要性,以及自上而下的机制问题。
- Motor:讨论运动控制的未来发展,包括层次化控制和数据化执行,以及亚符号的控制方式。
- Learning:强调Agent学习过程中对自身可靠性的判断和权威性的重要性,以及模型的多样性和解空间的扩展。
- World Models:提出构建无矛盾、统一的世界模型的必要性,以及模型的推理能力和内部思考机制。
原文:https://mp.weixin.qq.com/s/PL-QjlvVugUfmRD4g0P-qQ