01 什么是AI搜索?

AI搜索是指利用AI技术来增强和改进搜索体验的一种搜索方式。它不再局限于关键词匹配,而是力求深入理解用户查询背后的真正意图,提供更精准、更全面的答案。

以目前最火的AI搜索产品Perplexity为例。Perplexity 巧妙地将大语言模型 (LLM) 与传统搜索 API 结合起来,利用大模型的自然语言交互和信息整合能力,加上传统搜索引擎的强相关结果,很大程度提升了用户的搜索体验,包括总结提炼答案、列出信息来源、支持多轮对话,并在结尾提供相关话题等等。

AI搜索与传统搜索引擎最主要的区别,我们认为它是帮助用户围绕问题深入探索。Perplexity CEO说过,"在Perplexity, 用户和产品的交互并不会在他们得到答案后就结束;相反,这种交互在得到答案后才算真正开始。“这类产品尤其适合相对复杂、需要花时间深入探索和研究的问题。AI搜索对此极大地提升了搜索的体验、效率和深度,也正在改变用户获取和处理信息的方式。

产品体验:AI搜索 > 搜索 + AI Chat

举个栗子

最近备受关注的美国大选,民主党总统候选人哈里斯于8月6日选了Tim Walz做副总统候选人。我们分别问了ChatGPT、Google与Perplexity,哈里斯为什么做这个选择。
ChatGPT:由于这件事刚发生不久,ChatGPT第一反应说没有这个信息。当提示它去搜索一下,它给出了一个Walz的简单背景介绍。
Google:给出了一些相关新闻的链接
Perplexity:直接给出了一个比较完整的分析,并且注明了信息来源、列出了后续可以继续探索的相关问题。浏览下来,对于哈里斯为何选择Walz有了个不错的理解:
11104253-2024-09-11T02:42:48.png
可以看到,在这类相对复杂、需要花时间探索的问题上,Perplexity明显表现得更好:

  • 做好优质信息的总结
  • 提供信息来源,加强回答的可靠性,也方便用户直接回到信息原文深入了解
  • 从不同维度对问题进行比较全面的分析
  • 提供其他相关问题帮助用户进行后续探索

02 搜索发展脉络:IR->Web Search->AI Search

回看搜索引擎的发展历史,从最初的信息检索(Information Retrieval)到网络搜索(Web Search)再到如今的AI搜索,背后是对用户意图理解及信息探索不断深入的过程。

最早是信息检索(IR),主要面向用户的信息需求。针对用户的查询,系统从语料库中检索匹配的文档。随着互联网的普及,用户的意图变得越来越多样,包括信息检索,导航类查询(访问特定网站)和交易型需求(完成某个动作,如购物、文件下载)。这个期间Google作为搜索引擎横空出世,并且找到了广告变现的商业模式。而随着大模型的出现,其出色的问题理解和信息提取能力,让搜索得到进一步发展。

Google搜索的核心是关键词查询(Keyword Search),用户要找到合适的关键词。如果问的是个相对复杂的问题,用户需要不断尝试不同的关键词,得到搜索结果,再一一研究给出的10 blue links来理解寻找答案。而AI搜索,用户的核心是要探索和明确自己的意图。在得到答案的过程中,用户在对问题不断地探索和研究。搜索结果包括对问题的综合答案,还包括与之相关的问题,来激发进一步思考,从而帮助用户对问题建立更全面的认知。这是为什么Perplexity的Slogan是"知识的起点",也把自己称为“知识发现引擎”。

所以,AI搜索改变了搜索的交互模式,让用户更主动更方便地获取信息探索世界。

03 AI搜索是创业者的机会吗?

Google已经雄霸搜索领域多年,连微软投入重金打造的Bing都没能撼动其地位。当AI搜索产品出现时,大家的第一反应是,现在还有新的搜索产品的机会吗?即便可以借力大模型,但大模型能力如今并不是稀缺品。许多人对于Perplexity的核心拷问都来自一个问题:Google自己做了怎么办?

对此,创始人Aravind Srinivas在与Lex Fridman的访谈中给了很好的回答:

我们雇佣的第一个员工来问健康保险。去Google搜索时,Google没有动力给你明确答案,他们希望你点击所有链接并自己阅读,因为这能带来广告收入。任何比链接利润低的广告单元,或者任何会降低链接点击率的广告单元,都不符合Google的利益,因为这会减少高利润项目的收入——Google的广告收入太惊人,没办法“戒掉”展示链接的广告模式。我们从未尝试在Google擅长的领域与其竞争。如果你只是试图通过构建另一个搜索引擎来挑战Google,并有一些其他的差异化,如隐私或无广告之类,这是不够的。颠覆来自重新思考整个用户界面本身。为什么我们需要链接占据搜索引擎用户界面的显著位置?我们应该反其道而行之。

Srinivas认为, Google不可能为此牺牲掉展示链接广告的巨大收益。况且,AI搜索目前尚未找到好的盈利模式,仅靠2C付费负担不起搜索所需的庞大基础设施开支。Srinivas在采访中提及他特别喜欢Bezos的名言“Your margin is my oppotunity”(你的利润就是我的机会)——而这也正是Google留给AI搜索创业者留下的空间。

Srinivas也坦言,Perplexity的商业模式可能永远不会像Google那么赚钱——“可能存在一种情况,长期来看, Perplexity的商业模式能够让我们自己盈利,但永远也不会成为像Google 那样的摇钱树,对于我来说这件事也是可以接受的,毕竟大多数公司在它们的生命周期内甚至都不会实现盈利,比如Uber就是最近才扭亏为盈的”。

作为一个从底层逻辑上重新思考如何提升人类获取信息效率的产品,Perplexity从未定位自己要打败Google,而是试图提供一个全新的解决问题的思路,这样思考问题的方式,值得创业者们借鉴。

04 AI搜索有壁垒吗?

AI搜索严重依赖传统搜索引擎

虽然AI搜索从产品体验上撕开了一个挑战传统搜索引擎的口子,但它架构在传统搜索引擎API之上,存在一个非常大的风险——对于搜索引擎基础设施的依赖。这类产品调用现有搜索引擎的结果,只是在搜索侧做了聚合和提炼。(虽然Perplexity声称自己也有做一部分爬取和索引,但并不是针对全网信息,绝大部分搜索结果还是来自于直接调用Google等API,之后做头部结果reranking)

搜索与聚合,在难度与成本上有巨大的差异。今天如果想从头构建可以与Google等巨头抗衡的搜索引擎,要对全球海量数据进行实时爬取、索引和更新,在此基础上针对用户意图通过复杂的搜索算法和排名机制找到相关信息。这些需要庞大的计算资源和存储成本,对技术架构、算法和基础设施有极高要求。保守估计,搭建一个基础的通用搜索引擎至少需要上百亿美元的投入,这还不包括后续的运营和维护成本。

对于资金和资源有限的创业公司而言,进军通用搜索领域无异于以卵击石,Perplexity调用Google、Bing的API成了最好、也是唯一的选择。但这也构成了其商业模式中最脆弱的一环—— 成本端被牢牢把控在几家大厂手中。如果哪天Google调整API调用价格,许多AI搜索公司就会瞬间入不敷出。

做好知识检索和数据闭环可能是护城河

Perplexity第一个把大模型和搜索API巧妙结合,提供了出色的产品体验,抢先获取了大量用户与口碑。然而,产品“套壳”没有技术壁垒的问题也随即显现:在Perplexity的启发下,大量AI搜索产品如雨后春笋般涌现。在开源社区,几百行代码就可以构建一个Perplexity的替代品。复制成本如此之低,那么这类产品彼此竞争的壁垒在哪里?

之前讨论过,AI搜索的优势凸显于针对相对复杂问题的搜索。提供一个好的搜索结果,它需要深度理解语义、上下文及逻辑关系,做好信息的挖掘、整合、追踪和呈现。做到这点,我们认为涉及两个方面:一是对领域的理解。比如针对某个专业领域或者企业的问题,需要对该领域/企业的知识有一定的理解。二是用户数据的积累和闭环。比如针对某个领域的问题,提问的用户越多,一个用户探索的session越长,用户的关注点就越明晰,相关的知识点、维度和优先级就越全面和准确,产品可以更好地优化结果,从而形成闭环效应。

05 AI搜索机会在哪里?

做过搜索的人都知道,衡量搜索引擎的好坏核心在于长尾搜索( “It is all about tails” )。头部查询每家引擎都可以做得很好;对于长尾搜索,Google依靠其技术实力尤其是海量的用户反馈,把搜索结果的相关性做得非常好。因而,对于实时、长尾、任意领域的搜索,AI搜索需要依赖传统搜索引擎API来完成,在结果上的优势也未必明显——许多长尾领域没有太多结果可供“挖掘、整合、追踪、呈现”。但如果搜索针对有限、相对静态的数据,尤其涉及对复杂问题/研究型问题的搜索,AI搜索就能扬长弊端,发挥出它的优势,提供更好的结果。

从这个角度思考,我们认为,对AI搜索来说,有两个方向是非常适合的——即垂直领域搜索和企业知识管理。与数据量庞大、实时性要求极高的通用搜索不同,垂直领域和企业级搜索领域的数据量相对有限,更新频率较低,恰好规避了AI搜索在基础设施上的劣势。

垂直领域搜索

每个垂直领域都有其独特的语言体系、知识结构及信息需求,通用搜索引擎往往难以满足这些专业化需求。我们认为,AI搜索引擎对此能够提供更好的搜索体验,比如以下的几个方面:

  • 聚焦服务该领域的人群。比如通过社交传播将垂直领域的人聚集在一起,互相启发进行相关问题的持续探索。类似Perplexity Pages目前的功能,用户可以看到其他关注某个话题的人的问题和答案,彼此启发对该话题进行深入的探究。而这些“爱好者”的“探索路径”以及搜索到的回答,又将帮助AI搜索在该领域越做越好——回答得更深入、更准确。
  • 提供更好的数据挖掘和分析。垂直领域的数据蕴藏着巨大价值而很多没有发挥作用。传统的搜索引擎通常只能提供简单的信息检索功能,难以做到对数据的分析和洞察。AI搜索则能够利用AI的分析及整合能力,加上对领域的理解,深度挖掘数据价值给出更好的结果,比如:趋势分析预测(如金融领域股价走势预测)、通过海量数据挖掘做关联分析及知识发现(如医疗领域,发现疾病之间的关联关系、药物的潜在副作用等)、利用多模态能力做可视化数据分析等。
  • 搜索结果个性化。AI 搜索引擎可以根据用户的搜索历史、兴趣偏好、专业背景、职业特征等信息,对搜索结果进行个性化生成,将最符合用户需求的信息优先展示。

其中一个典型的代表是Consensus。这是一款聚焦在学术及健康领域的AI搜索工具,旨在简化学术研究,类似于“AI版的Google Scholar ”。它能够根据用户提出的具体问题,找到相关的经过同行评审的学术论文。该平台利用了一系列大型语言模型来自动化研究过程中的关键步骤,使其成为研究人员、学生和专业人士的强大工具。Consensus成立于2021年,目前已拥有超过200万注册用户和40万月活跃用户,包括来自斯坦福大学、辉瑞公司和美国国家科学院等知名机构的学者和 AI 研究人员。Consensus 有 1.2 万名付费用户,预计今年有望达到150万美元ARR。它最近刚完成由Union Square Ventures 领投的1100万美元A轮融资。

Consensus提供的核心价值包括:

  • 整合多个学术数据源
  • 提供强大的过滤功能让用户更精准地搜索
  • 自动化研究流程(将研究经验结合到产品中)
  • 平台提供最新动态以及研究协作工具,便于用户产生粘性

企业知识管理

与2C搜索面对的用户和需求相对统一不同,2B的搜索/知识管理需要针对不同行业、不同企业、甚至不同部门构建定制化的知识管理系统。举例来说,一家医药企业需要涵盖药物研发、临床试验、生产销售等各个环节的专业知识,而一家金融企业则重点关注市场分析、风险控制、投资策略等方面的信息。大模型虽然在处理海量数据和自然语言理解方面具有优势,但目前还难以深入理解特定的知识体系和业务流程、提供满足其个性化需求的解决方案。这部分是AI搜索产品可以深入解决、并构建长期价值和竞争壁垒的。

目前,企业级客户对于AI搜索的需求主要集中在以下几个方面:

  • 企业知识库构建。帮助企业将分散在各个部门的文档、邮件、聊天记录等非结构化数据进行整合和分析,构建高效的知识管理和检索平台。
  • 智能化决策支持。提供数据分析和预测服务,帮助企业优化运营效率、降低决策风险。
  • 信息安全和隐私保护。 AI 搜索引擎可以通过本地化部署、数据加密等方式满足企业的需求。

在这个领域,Glean是个很好的代表。它由前Facebook和Google工程师于2019年创立,初衷是致力于解决企业内部信息碎片化和检索困难的问题。核心产品是一个提供给企业的智能搜索平台,能够帮助整合企业内部各种应用和数据源,为员工提供统一、智能的信息检索服务。

Glean提供核心价值主要是:

  • 自然语言交互。利用人工智能和自然语言处理技术理解用户的搜索意图,即使是模糊或口语化的查询也能返回精准的结果。
  • 统一信息孤岛。整合企业内部各种应用程序和数据源,例如Slack、Salesforce、Google Workspace 等,为用户提供一站式搜索体验。
  • 个性化搜索结果。根据用户的角色、团队、兴趣及过去的行为,提供量身定制的搜索结果,提高信息的相关性和效率。
  • 知识发现与洞察。除了提供链接,还提取和汇总关键信息,帮助用户快速了解主题并做出更好的决策。

过去几年,Glean发展迅速,获得了包括Uber、Instacart、Pinterest、Dropbox、Databricks等众多知名企业客户,行业覆盖科技、金融、医疗保健等多个领域。它已实现5500万美元ARR,到年底可能会突破1亿美元。在资本市场也获得了众多投资机构的青睐,这家成立不到5年的公司,估值已达22亿美元。Glean的快速崛起反映了企业对高效信息检索和知识管理工具的迫切需求,也展示了AI搜索在该领域的巨大商业潜力。

无独有偶,今年4月,Perplexity发布了Perplexity Enterprise Pro,宣布进军2B知识搜索领域,得到了一票股东背后顶级技术公司的支持。我们认为,这一举动背后也蕴含着Perplexity对未来市场趋势的类似判断——从通用搜索转向企业级场景,可能是更加适合AI搜索产品的发展路径。

06 2B搜索的机遇与挑战

既然企业知识管理是AI搜索未来发展的一个大机遇,最后我们讨论一下如何看待2B搜索的挑战和机遇。

Precision vs. Recall

在搜索领域,2C和2B搜索有一些根本区别。从传统信息检索(IR) 到网络搜索(Web Search) 的演化背后,有一个非常根本的成功指标的差异:传统IR需要Recall (查全率),而Web Search只关心Precision (查准率)——就是只关心Ranking(排序)。原因是互联网上有太多相关内容,而且信息重复的网页太多,转载、引用、甚至抄袭极为普遍。

在这一点上,针对2C的AI Search和Web Search差不多,抓住几篇权威来源,认真组织一下就够了。但是对于2B的企业应用,人们往往要求全面和准确,查全率与查准率同样重要——比如在不同版本的产品文档中找到最新版本或指定版本、针对某个政策的多次补充条文等等,都要能找出来并且选择合适的内容进行整理和编排。

大模型在2B领域的能力缺失

2B知识搜索的第二个挑战在于大模型本身。2C Web/AI Search基本上是在一个公共数据空间中搜索,大模型也恰好是在这个数据空间中训练的,因此相当于模型已经在任务的领域内了。但是2B知识搜索对大模型来说基本上是领域外的,因为没有模型能够拿到企业的内部数据,这些数据都是企业的Know-how和宝贵的运营经验,因此2B知识搜索会面临很严重的模型领域缺失问题,这也是今天2B RAG系统召回率和准确率达不到客户预期的主要原因之一。

更具挑战的地方在于,我们都知道,大模型微调(fine-tuning)主要是提升模型输入输出形式、风格和指令追随能力,很难用微调来扩展大模型的知识,做任务领域的适配更是处于早期探索阶段。另一方面,做“垂直大模型”、尤其是给每个企业都做预训练(pre-training),从成本的角度目前基本上不现实。

所以大家现阶段还是在RAG上下功夫,希望利用大模型强大的通用语言和推理能力结合RAG能够理解和处理企业的知识文档。但这个路径目前面临大模型的推理能力不足、以及对领域深层概念的理解能力不足等问题,这些深层的领域概念和业务逻辑推理都是人们在实际工作中长期学习和积累的,并且许多都没有以数据的形式沉淀下来。对大模型来说,如何掌握这些深层概念与经验是个难题。这可能是现阶段大模型做2B知识搜索面临的最根本的挑战。

企业数据接入和整合困难

2B知识搜索的第三个挑战在于企业数据的接入和整合。AI/Web Search(尤其是借助现有搜索引擎API)只有那几个引擎和数据源,但企业内部的数据源非常复杂多样,还有很多定制系统,中国市场SaaS的渗透率低,就更是发散。这样复杂多样的数据源接入和整合本身就是一个巨大的挑战,很难做一个统一的产品短期对企业的知识进行全面和完整的搜索。

企业知识搜索是未来2B AI应用的基础

以上说的是技术层面的挑战。从成本收益上考虑,与2C领域相比,企业的数据量有限,搭建AI搜索系统的成本和工程难度都相对更低。而且这个成本和企业规模相关,越是大型企业,虽然数据量大,但知识搜索带来的收益也越高,有利于企业打破专业分工和知识的壁垒,更有利于培养跨部门的通才和具备全局视野的管理者和专家。这个潜在收益是大型企业愿意为企业知识搜索系统付费的主要原因之一。

我们认为,企业知识搜索是未来2B应用AI Agent的基础,很可能也是未来AI Worker自学习和融入组织的必经之路。想想人类员工在一家现代企业中工作,文档库和信息系统是其主要的信息来源,也是学习和成长最重要的工具。知识是现代企业运转的基础和媒介,对于AI Worker来说也是一样,如果不能把手头的任务或者问题转化成有效的搜索交互,它是无法在企业组织中完成任务以及融入团队协作的。因此知识搜索几乎是所有企业AI应用的基础。只有翻过这座大山,AI在2B领域才能实现后续多场景的泛化和自主能力。