使用数据才是 AI 时代的护城河

护城河是所有投资人和创始人都非常关注的一个概念，因为它涉及到企业的长期价值和生死存亡。AI 时代，大家对护城河同样有执念，但是越来越搞不懂什么才是这个时代的护城河了，甚至是否还有护城河都已经是一个问题。

从之前 Google 内部喊出《我们没有护城河，OpenAI 也没有》开始，大家对这块的讨论就没有停止过《创业公司最大的护城河是什么？》《多家 VC 谈 AI 应用的护城河：技术差异这个护城河正在趋近于零》，但越来越多的答案似乎表明，之前企业拥有的那些护城河，在 AI 时代可能都不堪一击。

大模型没有护城河，OpenAI 花了这么多年建立起来的优势，xAI 以及 DeepSeek 等在更短时间和更低成本的基础上很快就赶上来了；大量的 AI 应用就更不用说了，OpenAI 此次更新的图片新功能，让很多人觉得那些专做图像生成创业公司的护城河一下子都消失了。

独立开发者 Levelsio 说，似乎在 AI 领域，没有哪个模型能够长期保持领先地位和护城河，很快就会被下一个模型取代。在图像生成模型领域，我们已经看到领先者更迭得非常快：

Midjourney 在 2022 年 2 月
Stable Diffusion 在 2022 年 8 月
Flux 在 2024 年
Open AI 今天
DeepSeek 很快（？）

这是一个如此残酷的行业，数十亿美金的投资，大模型公司在几个月内就可能被超越，甚至被淘汰。a16z 合伙人 Justine Moore 感叹道，

现在唯一的护城河就是不断地推出很酷的东西，真是太疯狂了。

播客 All In 的几位嘉宾之前在一个播客里也说，在这个新的富足时代，营销和渠道变得非常重要。

今天，红杉资本（Sequoia）合伙人 Konstantine Buhler 写了一篇文章谈这个时代的护城河，他认为使用数据才是护城河（Usage is the Moat），我还比较认同，刚好前两天跟一位 AI 领域的创始人聊这块时，也提到了类似的概念。

这和我昨天介绍的那个 3000 营养师撑起年收入 5000 万美金的 AI 产品也有点类似，技术上它就是通过 Anthropic 大模型的部分能力，但是很好的解决了特定群体的问题，而用户的使用过程又让他们不断完善优化产品《Perplexity 年收入破 1 亿美金，3000 营养师撑起一个 5000 万美金 ARR 的 AI》

Konstantine Buhler 说，下一个万亿美金护城河可能不会建立在专利或网络效应之上，更可能是基于数十亿次用户的交互，这些交互是你的竞争对手无法复制的。

在过去几个季度里，我们见证了风险投资历史上最快的增长速度之一。许多公司正以创纪录的速度冲刺至 1 亿美金或更高的 ARR。一个不断被提出的问题是，这些公司的“护城河”有多深？

在商业中，护城河通常指的是一种显著的进入壁垒，防止竞争对手进场抢占市场。护城河概念的首席布道者是沃伦·巴菲特，他曾说：“一家优秀的企业就像一座坚固的城堡，周围有一条深深的护城河。我希望护城河里有鲨鱼，以防那些试图侵占城堡的人。”

每一次新的技术革命都会孕育出新的潜在护城河。在电话通信时代，我们见证了一种极其强大的护城河——网络效应。这一概念很好地体现在梅特卡夫定律（Metcalfe’s Law）中，该定律提出，一个电信网络的财务价值或影响力与其系统中连接用户数量的平方成正比（n²）。

尽管这一理论诞生于 1980 年的电话通信领域，但后来成为了互联网“网络效应”的核心概念，并最终影响了社交网络。无论称之为“网络效应”还是“梅特卡夫定律”，这都是一个强大的护城河概念，在几十年前还不那么显而易见。其本质在于，随着新用户加入，网络中的潜在连接数量按 n² 的数量级增长。

这次 AI 时代带来了一个新的问题：使用数据（usage）能否成为护城河？尤其是，用户在使用产品时产生的数据，能否形成可持续的竞争壁垒？

这是一个开放性问题。或许历史上最典型的案例来自 Google。Google 最初依靠 PageRank 算法实现了搜索自动化。然而，仅仅几年后，他们真正的优势不再是 PageRank，而是他们从用户搜索行为中收集的点击数据。他们开始预测某个链接被点击的概率，这些预测是基于之前用户在类似搜索中点击的情况。

这正是 OpenAI 创建 ChatGPT 的原因。ChatGPT 的目标并不只是成为一款爆款消费级产品，而是为了收集这种使用数据反馈。理论上，如果他们能打造一个人人都能使用的产品，就能观察用户提出的问题，并收集关于答案质量的反馈意见。在我看来，他们犯的一个错误是没有允许用户对回复进行编辑，因为这本可以提供更高质量的反馈数据，使其护城河更深。

在各家公司竞相追逐极高的收入目标时，也许真正的护城河就在于反馈循环——即使用数据。更多数据可以带来更好的 AI 产品。这一效应在 OpenAI 2020 年的一篇论文中得到了很好的总结《Scaling Laws for Neural Language Models》，该论文的作者中有几位后来成为了 Anthropic 的创始人。

该论文提出，语言模型的性能会随着计算能力、数据集规模和参数的增加而平稳提升。从图表来看，X 轴是对数刻度，这可能意味着数据的边际收益递减。换句话说，这条曲线可能呈现出“logistic curve”（S 型曲线）的形态——即当数据量达到一定程度后，收益会趋于平稳。但这并不影响整体趋势，因为随着问题的复杂度增加，新的 S 型增长仍然可能出现，也就是说，可以不断“叠加曲线”。

我认为，产品的价值会随着平台上使用数据的增长呈现指数级提升。

需要强调的是，这种“使用数据”并不等同于一般的互联网数据。普通的互联网数据已经高度商品化，例如许多公司都在使用 Open Source Common Crawl（https://commoncrawl.org/）数据集。因此，护城河的真正所在，是通过用户的独特使用情况形成反馈循环，解决他们特定的问题。在一些垂直领域，这种数据的专属性更强，形成的护城河也更坚固。

现在，各家公司正争相冲过增长曲线的拐点，试图领先于竞争对手。如果他们能抢先突破这个临界点，后来者将很难进入市场。因为领先者的产品质量已经远超对手，而竞争对手则必须说服用户使用一个明显更差的产品，并坚持足够长时间来积累训练数据，最终提升产品质量。但对于任何理智的用户而言，这种情况几乎是不可能发生的。

使用数据才是 AI 时代的护城河

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅