01. 大模型的上半场:海外极速开卷 国内「百模大战」

如何定义大模型的“上半场”和“下半场”?

所谓上半场,聚焦“认知层”,是从去年 ChatGPT 发布至今,大众对于大模型的认知——包括它的优缺点、擅长以及不擅长的,有哪些玩家以及何种商业模式,都越来越清晰的阶段。

而此刻开始的下半场,聚焦“应用层”,是真正比拼技术落地、决定胜负的战场。

开始讨论“下半场”之前,不妨先回顾一番大模型“上半场”的历程,以此更好地判断大模型的当下和未来。

2020 年 6 月,GPT-3 发布。在 GPT-3 之前,所有人工智能技术都是专用系统,模型不通用,而作为一个单一模型,GPT-3 让我们看到了通用语言智能的可能性,这是 NLP 几十年发展以来大家一直在追求,却始终无法实现的理想。

2022 年 11 月,ChatGPT问世,迅速在全球掀起了通用人工智能热浪。ChatGPT 在理论上与 GPT-3 并无区别,它把普通人无法使用的大语言模型,变成了一个让普罗大众零距离接触的通用 AI 应用,也可以理解为它对 GPT-3 做了一个 Alignment。

OpenAI 将 GPT-3 模型与人类聊天习惯进行了对齐,普通用户在使用中不再需要 Few Shot——每次问它一个问题,还需要举几个例子,比如问 GPT-3 数学问题之前,先要告诉它 “1 + 1 = 2”,再问它“5 + 8”等于多少,它才能回答。
很显然,这样的操作方式只有硅谷的极客才能用,普通人不可能使用这样的系统。所以 ChatGPT 做的一个事情就是把 Few shot(小样本)变成 Zero shot(零样本),你可以直接问它 5+8 等于多少,而不用举例子。
通过 Supervised Fine-tuning(监督微调),ChatGPT 让大语言模型以极快的速度从硅谷极客的圈子进入到了大众的生活当中。

2023年3 月,GPT-4 推出,微软 AI 科学家团队发表名为《AGI 的火花:GPT-4 的早期试验》的论文,通过 GPT-4 在数学、编程、视觉、医学、法律、心理学等领域复杂任务中的优秀表现, 展示 GPT-4 迸发出堪比人类的智能的水平。同时 GPT-4 也开发了多模态,但也只是昙花一现,并没有持续掀起太多的水花。

随后,AutoGPT的出现点燃了无数人对大模型落地各行业的热情。AutoGPT 由 GPT-4 驱动,是一个自主规划、自主推理、自主执行任务的系统,在收到用户任务指令后,可以自主使用第三方工具、思考,并操作电脑。AutoGPT 实现了“行动→观察结果→思考→决定下一步行动”这条路径的打通以及循环,是第一款基于大模型的 Agent 产品。

2023年7月,谷歌发布RT-2——将大模型在互联网上学到的知识,迁移到机械臂。如同 GPT-3 让我们看到了通用语言智能的希望一样,RT-2 让我们看到了通用机器人的可能性。

随着大模型“上半场”的技术拼杀,在全球共识极速达成的半年之际,海内外的巨头们演绎着一系列里程碑事件。

去年底,OpenAI 和微软一拍即合,出尽风头,成为科技界最火热的“CP”。而携手 OpenAI 的微软也突然如焕发青春一般,展现出空前的创新活力,颇有一番王者归来的气势。不过长远来看,OpenAI 和微软的未来依然存在很大变数,甚至已有“貌合神离”的裂痕「初现」。

与此同时,昔日AI 王者 Google 在 OpenAI 和微软的联合攻势下,一度溃不成军。直到最近 Google 似乎重新找到了一点“感觉”,无论是团队建设还是大模型的落地,都有了一些不错的起色。

Meta带着出其不意洗牌巨头格局。Meta 是一家非常具有创业精神,极能吸引优秀人才的公司。虽然小扎为元宇宙豪掷 300 亿美元差点沦为笑柄,但 All in LLaMA 扛起开源大旗之后,收获了不少好评。

随后,中国大模型接力,几个月内认知不断被踏平,几乎瞬间,“百模大战”席卷而来。但一切似乎都是熟悉的配方,熟悉的味道——上一波 AI 、自动驾驶,芯片的老故事,又重新被讲述着。

02. 上半场的共识与非共识:规模、开源、通用

OpenAI 的成功本质上是一场非共识的胜利。

2017 年,谷歌推出 Transformer,仅采用 Attention 机制进行机器翻译任务。自此,大模型的发展大致走上了两条路,BERT和GPT,而 OpenAI 选择了一条“少有人走的路”,恰恰是这种非共识性的选择突破了 Scaling Law,引领了当下的大模型盛世。

GPT 从非共识到共识的历程,正是人类创新史的缩影。回顾人类科技史,从地心说到万有引力,从蒸汽机到电力革命,人类的科技进步始终在非共识与共识中间螺旋上升。

大模型也不例外,在 GPT-3 第一次向人们展示了大模型带来的超越文本生成本身的能力后,GPT 模型是通用人工智能最佳路径的共识便在 AI 界迅速达成。大数据、大算力、大算法也被业界奉为圭臬,“力大砖飞”似乎成为了唯一真理。

那么,在今天的大模型语境下,规模到底重不重要?选择开源还是闭源?是不是一定要做通用大模型?

超大模型 VS 大模型

根据大模型的参数规模,我们可以将模型分成两大类,一类是万亿级别的超大模型,一类是数百亿级别的普通大模型。超大模型的使命是探索能力天花板,普通大模型更重要的使命是承载落地。

今天有一种氛围,似乎大家都沉浸于对“暴力”的崇拜,不断堆叠算力、无限扩大参数规模似乎成了通往 AGI 唯一选择。

GPT-3是“暴力美学”的胜利,在中国我可能是最早提出来的,但是“暴力”本身并不值得崇拜,我们更应该研究“美学”,而非“暴力”。

一旦陷入“暴力”的逻辑,我们很容易将所有希望都寄托在模型的参数规模上,不断坚定规模可以解决所有问题的信仰。基于 Scaling Law ,这种观点不无道理,但是万亿级以及更大参数规模的模型,其意义更多在于探索智能的天花板,而非实用。

因为训练这种模型耗费的资源、花费的时间巨大,绝大部分企业都无法承受。而且,模型的规模越大,智力越强,在某些领域的幻觉也会越严重。

所以在应用层,百亿或者数百亿参数级别的普通大模型反而更适用。

开源 VS 闭源

很多 OpenAI 的粉丝说,闭源的 OpenAI 一定会碾压所有人,遥遥领先。实际上,开源的 LLaMA 正在快速追赶。正如谷歌泄露出来的内部信中提到的,大模型技术本身并没有壁垒,开源总有一天会迎头赶上。

未来,开源一定会与闭源并存,甚至分庭抗礼,这是关于大模型发展趋势的另一个基本认知。

有人会说开源也没有商业模式,开源是否可以持续呢?小公司开源的目的可能未必清晰,但像 Meta 这样的公司开源是有道理的,它在元宇宙都能亏 300 亿美金,那它一年亏 10 亿美金做一个开源模型 LLaMA,这种「为爱发电」是可持续的。就像以前谷歌开源安卓系统,就是在下一盘「目光长远」的棋。

然而,中国在业内存在一种怪象,感觉基于开源迭代很丢脸一样,一定要从头开始自己搞。这其实不尽然,全世界在科技层面是一个协作体,基于开源并不丢脸,关键是要建立比较好的认知,开源不意味着就没有任何壁垒,关键是要找到自己的定位。

无论是开源还是闭源,对大模型来说,在能力层面没有绝对的区别。因为基于开源模型也需要做预训练、强化学习、Inference优化、清洗数据等,它只是降低了冷启动的门槛。如果真的想要做出一个性能达到业界领先水平的模型以及应用,还是需要花很多精力。

通用大模型VS垂直大模型

大模型要找到自己的核心定位,要明确通用大模型与垂直大模型的区别。

早在今年 2 月,包括我自己在内,对通用大模型非常着迷。然而,在很多情况下,通用大模型并不一定是唯一的解决方案,尤其在 ToB 应用中,需要根据具体情况进行选择。

比如,要做一个芯片设计的应用,那么这个模型应该专注于回答与芯片设计相关的问题,没必要回答一些诸如明星八卦之类的无意义问题。也就是说,泛娱乐的ToC 场景更适合通用模型;而行业 ToB 更适合垂直,但要深度可靠

另外一个观点是,不会有垂直行业的大模型。行业范围太宽泛,比如金融行业,它包括人力资源、财务、法务等各种不同的工种。从目前来看,大模型很难跨工种应用,因为每个工种都有自己的流程和知识。

没有垂直行业大模型,但可以有垂直工种大模型。

03. 算力、数据、算法,谁是真正的竞争壁垒?

无论是万亿参数规模的超大模型,还是数百亿参数级别的普通大模型,闭源模型或开源模型,任何大模型的研发、训练都要依靠算力、数据、算法。大模型竞争壁垒,自然也需要从这三要素入手构建。

首先,算力是一种消耗品,本身不构成壁垒。如果我们与 OpenAI 的人沟通,问他们到底有什么秘方,为什么做得这么好?他会告诉你,“我们就是规模大”。但绝大部分公司在“暴力美学”上走不下去,因为如果一味靠暴力,一年可能需要至少 10 亿美金的算力投入。

算力的壁垒,本质上是钱的壁垒。消耗掉的算力就像燃烧掉的燃料一样,算力用完了,就相当于把钱花完了。像有的创业公司比谁卡用的最多,这是一件笑谈。那是不是意味着你什么也不懂,就只能烧卡?

所以,关于算力大家要理性,单纯比拼 GPU 的数量没有任何意义,要想清楚在消耗掉海量的算力之后,自己能沉淀出什么。尤其是创业企业、中小型企业更不要想着自建算力中心,这个完全是头脑发热,怎么可能在计算利用率上面超过云巨头?

要知道除了足够多的 GPU 之外,算力中心的计算利用率同样非常重要。我记得某云巨头的人讲过,1000 张 H800 能做到 60% 以上的计算利用率,其背后有着庞大的团队持续优化操作系统、网络、数据传输等,中小企业难以望其项背。

那么模型的算法是否能够成为企业的护城河呢?答案是不能,需要说明的是算法本身的壁垒没有大家想象那么高。

虽然长期来看,GPT 用非共识选择走出了一条独特的道路,但是当下大模型的算法架构已经基本固定,短期不会有什么变化,很难再有大的突破。

最底层是 Transformer 的模型结构,中间层是 Decoder Only 的多层神经网络 GPT,最后是基于 Next Token Prediction 的目标函数。不过,长期来说量变引起质变,新架构超越现有架构是大概率会发生的事件。

在大模型的三要素中,大家都知道数据非常重要,是最有可能成为壁垒的。但需要强调的是,大家都容易获取的数据不是壁垒。比如,互联网上爬来的数据,开源社区公开的数据集,大家都能够获得并且应用到训练中,这种数据无法成为壁垒。

只有用户在自己产品中交互沉淀的数据才是壁垒,构建数据飞轮很难,但一旦建立将是比模型和算力更靠谱的壁垒。

04. ChatGPT真的是工业革命级别的革新吗?

ChatGPT 无疑是一款商业奇迹般的产品,仅用两个月便收获了超过 1 亿的用户。它用简单的对话窗口,让大众体验到了大模型的神奇能力,让 AI 从业者高呼,“大模型将渗透到生活的各个角落,带来工业革命级别的革新”。

然而此刻反思,这是真的吗?不可否认,ChatGPT 的确让我们看到了通用 AGI 的曙光。但是如果将它定义为一场“技术革命”,它就必须要革新各行各业。

如果 ChatGPT 始终是一个纯文本的应用,或者它始终无法解决高度幻觉的问题,它便只能应用于非严肃的内容创作或者娱乐领域。那么,它很有可能成为本世纪最大的科技泡沫。

而能否革新各行各业,多模态和 Agent 是否靠谱决定了这场革命的真实性。

05. Agent ,全村的希望?

想要革新千行百业,大模型就必须落地到具体场景,而 CoPilot/Agent 是大模型应用到企业场景的唯一之路。

Agent 指的是能自主理解、规划决策、执行复杂任务的智能体。

说到 Agent,大家一定会想到 AutoGPT,AutoGPT 最大的特点在于它能全自动地分解任务指令并自主执行,中间环节不需要用户参与——作为一个 AI,它居然有了自主规划的能力!

AutoGPT 的自主规划能力打破了我们对以往 AI 的认知,如果说 ChatGPT 是服从用户指令,用户让它干什么它就干什么,那么 AutoGPT 就是“自己觉得应该干什么就干什么”,它就像是一个遇到不懂的问题能自行百度的人类。

而能够培养一个具有自主规划、预测能力的模型,使其能够端到端地完成整个任务,这可能是整个计算机领域或人工智能领域的至高理想。

要实现 Agent 并非朝夕之事。Agent 的成功依赖于 LLM 可靠的规划和推理能力,以及 LLM 对环境的动态适应能力。Agent 由大模型驱动,而大模型的规划能力不够强,还亟待提升。

持续与环境交互是 Agent 另外一个非常重要的环节,Agent 需要能够根据环境的反馈不断调整规划,进而更好的完成任务。

ChatGPT 这类模型和物理世界没有任何交互,而现实世界的环境很复杂,与文本世界或者说虚拟世界有着本质区别,我们所谓的应用场景也是一种环境,如果没有环境的动态学习能力,Agent 很难成功。

因此,如何与环境交互是发展 Agent 必须要解决的问题。

目前,这个问题还没有成熟的解决方案,与环境交互并不能像大模型一样建立一个 Transformer + GPT + Next Token 的简单架构。

Agent 现在还处于山顶洞人的阶段,仍然有很长的路要走。可以想象一下,我们是从山顶洞人时代进入城市生活,让今天的我们面前有一个电子屏幕,大家围坐在一起听我演讲。

协作是文明的底层逻辑。人类之所以能够建立辉煌的现代文明,根本原因是人类能够进行大规模的社会分工和团队协作,如果多 Agent 能够取得成功,将会超越人类所有的想象。

06. 多模态,是C位,不是花瓶

Agent 的输入、输出都依赖于多模态,没有多模态,就没有 Agent。

多模态是一种 Grounding,可以让语言构建的虚拟世界和物理世界连接起来,它也是接地气的有效途径,可以降低大语言模型的幻觉。

跨模态的泛化和知识迁移可能是大模型对 AGI 最大的贡献。未来,纯文本的大模型也许不再是主角,加上多模态的大模型才是主角。

大语言模型不只是一个语言模型,更是一个认知模型,是智能的核心和基础。有了好的认知模型,只要加入少量数据就能有视觉、听觉、动作等多模态能力。

比如 RT-2,基于LLM的多模态为我们打开了一扇新天窗。今年7月,谷歌推出 RT-2——将模型装进了机械臂。

当它收到“将灭绝的动物拿起来”的指令之后,它可以观察并理解到恐龙是灭绝的动物这类二级推理的问题,使之可以轻松地将恐龙模型夹起来。有了基于 LLM 的认知后,机械臂实现“夹起恐龙”反而是最轻松的事情。

07. 巨头共识内卷之下,创业公司还能怎么玩?

虽然,现在 ChatGPT 是否真的是工业革命级别的革新还尚未可知。但是,大模型是不能错过的商业机会,已经成为了巨头们乃至整个科技圈的共识。

海内外巨头们纷纷下场,不惜成本投入大量资源,确保自己不会在这场 AI 浪潮中掉队。这种情况下,创业公司还能怎么玩?如何才能挖掘出自己的生存空间?

虽然创业公司也可以选择做通用大模型,但将模型和应用垂直整合可能是更适合创业公司的路径。

众所周知,纯应用没有壁垒,纯模型没有商业模式,或者说商业模式会很短。如果能够将应用和模型结合起来形成数据飞轮,对创业公司来说更加靠谱。

但是,要做应用和模型的垂直整合模式,作为创业公司必须要回答“为什么一定要有自己的大模型”这个问题,是因为拥有自己的大模型之后能够有效降低推理成本,还是因为数据隐私必须要本地部署?是特殊 API 的调用需求,还是发展多模态模型的需要?

自研大模型,一定是为了解决切实问题,而不是随波逐流,别人都在做所以我也要做。比如,Character.AI 构建自己大模型的理由就很充分,因为调用 OpenAI、谷歌等模型的 API 无法满足其用户的娱乐化需求。

在商业模式选择上,按照过去的习惯,以客户的体量可以将商业模式分为四类:ToC,面向普通消费者;ToPC (Professional Consumer),面向专业个人;ToSMB (Small and Middle Business),面向中小企业;ToB,面向企业大客户。

以前互联网公司一般都是 ToC,通过应用抢占用户的注意力,获取海量流量后利用广告变现,羊毛出在猪身上;而传统 AI 公司主要 ToB,以 Case by Case 的定制化项目服务大客户,在这种模式下很多公司逐渐蜕变成了系统集成商(SI),最终沦为亏钱的高级人力外包。

在大模型的加持下, AIGC 展现出了强大的通用性,拥有良好的用户体验。因此,大模型创业公司拥有了调整自己商业策略的可能性,即可采用 ToPC 或者 ToSMB 的商业模式。

这种商业模式的好处在于,一方面可以避免跟巨头竞争,另外一方面能够避免上一代 AI 公司做B端项目,持续亏钱的状态。

但 ToPC 也并非是无脑操作,在精准定位客户群体的基础上,还需要客单价足够平民化(年千元或万元级别),产品体验足够闭环简单,真正为用户提升效率或创收。

08. 出门问问定位:应用和大模型的垂直整合

从 2020 年发布第一支 AIGC 产品「魔音工坊」至今,出门问问持续优化多模‍态大模型、拓展 AIGC 商业化布局,将 AI 声音、AI 写作、AI 作图、数字人等一站式 AIGC 产品矩阵打磨至极致,不断重塑内容创作者的工作流。

这支科比视频,是一个人借助出门问问的 AIGC 产品矩阵,仅用几个小时轻松创作的 AIGC 系列作品,而对创作者来说,这在半年前还是难以想象的事情。

半年后的今天,随着大模型进入“下半场”,百模大战之后的落地应用也在持续加速、遍地开花,未来的各种模态融合演进、满目琳琅。

出门问问已有清晰的定位,将应用与大模型垂直整合,践行 ToPC/ToSMB 的商业模式——面向 PC 用户打造 All-In-One 的 AIGC 产品矩阵,面向 SMB 客户打造优质的 CoPilot 应用。

在模型层面,出门问问重点探索多模态和可学习 Agent 的大模型。

多模态的实现是一个循序渐进的过程,先用文本建立认知,然后加入语音、Vision、3D Motion 等。在这种路径下,因新模态加入而增加的数据或参数都比较小,不会对训练造成太大的压力。

多模态、可学习 Agent 的大模型,其优点在于,它可以将从虚拟世界学习到的知识迁移到物理世界,为我们打开广阔的想象空间。

如果一个 Agent 在虚拟世界环境中能够完成各种复杂的动作,我们便可以将这些知识迁移到物理世界,驱动具有实体的机器人在现实世界中执行各种任务。

我们希望将每一种探索都打造成普通人能够真正使用的产品,而不只是一个开源的PaaS,或是可以 ToB 定制的系统。我们希望让更多消费者成为创作者,让更多人借助AI来拓展智慧、知识和想象力的边界。

作为国内起步最早的 AIGC 公司之一,出门问问早在 2020 年开始大模型的研发和 AIGC 的应用布局。

「魔音工坊」是我们在AI声音领域打造的第一款 AIGC产品。

大众在抖音、快手等各大音视频平台的解说类视频中经常听到的声音,大部分皆由「魔音工坊」生成。此外,「魔音工坊」还覆盖了有声书、在线教育、有声电台、新闻播报、体育赛事等诸多领域。

目前「魔音工坊」(海外版DupDub)已在全球范围内获超百万量级用户,为海内外创作者带来了快乐、高效和成就。

「魔音工坊」的声音商店拥有 1000 余款的 AI 声音风格,支持 37 种语言、15 种方言,用户可以随心创作。企业版支持多人多端协同,极大提升创作效率。

其中“声音版的word编辑器”是「魔音工坊」独家首创的特色功能之一,可以实现如同用 word 编辑文字一样编辑声音。

为什么要推出这一功能?因为 AI 再精准,在声音生成方面也无法做到绝对精准,比如多音字、重读、连读很容易出错;或在配音中,我们希望对话在磁性男声和温柔女声之间自如切换,此时的语音算法很难灵活应对,而有了编辑器之后,只需通过简单的操作便能一键调整为我们想要的形态。

结合底层大模型之后,「魔音工坊」(海外版DupDub)还支持写文案、配图等,它已经从之前单一的配音产品变成了集文案、配音、剪辑等全流程于一体的一站式 AI 创作应用。

基于大模型的多模态为我们打开了一扇新天窗——「魔音工坊」拥有“捏声音”的能力。

只要对「魔音工坊」轻松描述一下“我想要一个什么样的声音”,它就可以直接生成出来。甚至给它一个 3 秒的音频,然后跟它说“请按这个风格为文字配音”,它即刻生成风格一致的音频结果。

比如给它一个 3 秒哭腔的音频,它立刻就能学会,这就是大模型的 Zero shot。这一功能极大降低了声音制作的门槛,即将在「魔音工坊」上线。

面向创作者的数字影像领域,出门问问推出数字人平台「奇妙元」。

「奇妙元」拥有 100 余款数字人、1000 余款 3D 数字资产及 1000 余种声音。凭借多模态生成技术,「奇妙元」同时支持图片建模(2D数字人)、视频建模(2.5D数字人)、3D建模 (3D数字人)三种不同形式的数字人生成。

其中,图片建模的 2D 数字人生成,用户只需要「一张照片」即可生成自己的专属数字人;视频建模的 2.5D 数字人仅需一段5分钟的真人视频,即可 1:1 复刻用户的形象神态,为用户打造声音一致、动作自然的数字人分身。

从 3D 到 2D,从专业创作者到普通大众,「奇妙元」不断降低用户创作门槛,推动数字人走向平民化。

目前,出门问问AIGC 产品累计服务的用户量已超 1000 万,注册用户量超 600万,其中付费的用户量 40 万。据灼识咨询报告,出门问问是亚洲起步最早、收入规模最大专注于生成式 AI 的人工智能公司。

同时,出门问问也在积极布局AIGC的全球化。我们坚信这项技术的革命性力量,也认为 AIGC 并非终局目的,对“人机”互相成就的践行才是更核心的目标。

任何时代都存在着机会,亦面临挑战。

“秦失其鹿,高才疾足者先得之”。

大模型下半场,应用层成为兵家必争之地,如何在应用层的“逐鹿之战”中脱颖而出,值得我们思考。