人工智能系统的基本原则

作者在AI投资领域摸爬滚打多年，把自己的心得整理成了一整套「AI Systems First Principals」，即人工智能系统的基本原则。这些也是作者在投资时会反复考量的要点。

1 复杂性是必要的

让我们来做个思想实验。假设让你造一座桥。乍一听，你可能会觉得这是个不小的挑战。

但如果我告诉你，你拥有以下资源：

无限量**的高品质钛合金
50年的建造时间
100万名建筑工人
世界顶尖的建筑设备

现在，这个任务听起来就容易多了，对吧？然而，真正优秀的工程设计恰恰源于各种约束条件。复杂性则是我们不得不面对的必要之恶。用纯钛打造一座价值万亿美元的桥梁，听起来简单，实则愚蠢至极。因此，当你看到有人宣称他们的解决方案异常简单时，通常只有两种可能：

这个方案烧钱如流水
它把复杂性转嫁到了别处

举个例子，Groq 公司总是吹嘘他们的硬件多么简单。但别被表象迷惑。复杂性并没有消失，它只是被转移到了他们那个 144 位宽的 VLIW (超长指令字) 编译器上 - 这玩意儿简直就是个噩梦。

再比如 Cerebras，他们正在沾沾自喜地嘲笑英伟达，就因为 Blackwell (英伟达 GPU 架构) 延期了一两个季度。他们声称自家的晶圆级引擎 (wafer-scale engine) 更简单更优秀，但这种论调同样经不起推敲。复杂性只是从硬件转移到了编译器上。而据我所知，这个编译器根本就不能正常工作。有意思的是，他们居然已经申请了 IPO (首次公开募股)。

2 开放标准不一定是最优解

现在市面上那些被英伟达 (Nvidia) 打得满地找牙的公司 - AMD、英特尔 Intel、一大堆AI硬件创业公司 - 最爱干的事就是抱怨英伟达的「邪恶」专有标准不公平。他们嚷嚷着「开放标准才是王道」，同时眼睁睁看着普通英伟达员工摇身一变成了百万富翁，“皮夹克大佬”(英伟达 CEO 黄仁勋) 更是嘴巴咧到了月球。

就拿 NVLink (英伟达自主研发的 GPU 互连技术) 来说。英伟达在 224G SerDes (串行/解串器) 技术上领先全行业一年。他们的 GB200 NVL36/72 集成大型机简直就是工程奇迹，其中的秘诀就在于 224G NVLink 用普通铜缆就能搞定大规模 GPU 间通信。

再瞧瞧 AMD，正憋着劲儿想把自家那套 PCIe 魔改版 (XGMI/AFL) 给开放出来。就算一切顺利，也得等到 2026、2027年才能端出个像样的系统，还得靠 Broadcom 的 PCIe 交换机才行。至于通用加速器链接 (Universal Accelerator Link)，说白了不过是一帮跟不上节奏的「失败者」凑在一起搞出来的又一个所谓开放标准罢了。

没错，英伟达是有点儿延期。Blackwell (下一代GPU架构) 要等到2025年才能面市，比预期晚了一两个季度。但你猜竞争对手的手里有啥？？ 一堆 PPT

他们现在的「宏图大业」就是开始参加标准制定会议，然后指望着这些 PPT 能在2026、2027年变成真东西。专有标准让公司能够快马加鞭地创新。这一点儿也不假。

你可能不知道，所有高速以太网物理层 (PHY) 都得在零下 20 度到零上 110 度的环境下正常工作。为啥？因为官方标准里就这么规定的。有些以太网 PHY 可能会用在寒冷地区的电信基站里，所以得保证低温启动没问题。设计和测试一个能在这么宽温度范围内稳定工作的互连 PHY，这活儿难度可不小。

我敢打包票，英伟达那个比全行业领先一年的 224G NVLink SerDes 绝对不可能在低温下正常工作。但这又有什么关系呢？那些 GB200 NVL72/36 机器反正都是往数据中心里一塞。英伟达凭什么为了一个压根用不着的场景，去牺牲性能和上市时间？

所以说，开放标准并不一定就是最优解。通常都是些在专有标准竞争中落了下风的公司在瞎嚷嚷。对 CUDA (英伟达开发的并行计算平台和编程模型) 叫苦连天的人也是一个道理。英特尔的 oneAPI (跨架构编程框架)？别提了，基本就是个摆设。讽刺的是，英特尔目前最成功的 AI 芯片 Gaudi 压根也不用 oneAPI。滑稽 ?

3 Scaling 的瓶颈是显存

要知道，无论是训练更大的模型还是跑更大模型的推理，真正卡脖子的不是计算力，而是显存 (Memory)。说到底，显存的瓶颈，实际上就是互连 (interconnect) 技术的瓶颈。

放眼当下 (2024年) ，真正能引起业界轰动的创新，围绕这两点打转：

你的加速器 (accelerator) 能支持多少显存？带宽能到多少？
你的互连技术够不够硬？能不能让加速器们共享显存？更进一步，能不能让它们共享更大的显存池？

4 Scaling Law 就不能算是个 Law

AI圈总爱谈论一堆所谓的「law (定律)」。实话实说，这些根本就称不上是定律。充其量不过是一通试错之后得出的推测罢了。

真正的数学定律，比如 Cramer-Rao 边界，背后都有着严格的数学证明，不是靠实验数据捏出来的。

举个例子，业界在评估相控阵到达角估计 (phased array angle-of-arrival estimation) 算法的性能时，就是拿这个数学界限当尺子的。这个界限代表了理论上能达到的极限。

再比如 Shannon-Hartley 定理，是专门研究噪声信道信息容量上限的数学定律。简单点说，就是告诉你在一个信道里能塞多少信息。甭管无线还是有线，规则都一样。你可以把它理解成信息世界里的「光速限制」。

重申一遍，这些才是真正的数学定律，每一条背后都有严丝合缝的证明。可不是什么实验数据东拼西凑、穿上「law」的外衣就能糊弄人了。

5 AI真的适用于所有问题吗？

还记得谷歌那个云游戏服务 Stadia 的吗？云游戏最显而易见的问题，就是用户设备和云端之间的往返延迟 (round-trip latency)。有意思的是，当时一位谷歌副总裁竟然信誓旦旦地宣称，Stadia 将实现「负延迟 (negative latency)」，即输出信号的变化比输入信号的变化还要快。因为云端的人工智能会预测用户的操作，提前替玩家做出反应。这种说法自然招来一片嘲笑。事实证明，Stadia 推出后确实存在严重的延迟问题，而中层管理者那套花里胡哨的人工智能术语根本解决不了实际问题。最终，Stadia 在推出三年后就黯然退场了。

这个案例告诉我们，人工智能常常被滥用，被当成包治百病的灵丹妙药。

那么，我们该如何判断人工智能是否适合解决某个具体问题呢？

有两个关键因素：

1 AI能解决传统方法无法解决的问题吗？

典型例子就是图像识别 (image recognition)。还记得 AlexNet 吗？它一夜之间就让几十年的图像处理研究成果相形见绌。

2 AI能比传统方法更快、更高效地解决问题吗？

看看电子设计自动化 (EDA) 领域的龙头企业新思科技 (Synopsys) 和铿腾电子 (Cadence)。他们都开发了人工智能优化器，大大提升了现有芯片设计工具的性能。

设想一下，原本需要10名工程师花一个月才能完成的设计优化，现在使用AI增强工具，只需1名工程师一周就能搞定，这是多大的效率提升啊！

6 端侧AI仅对延迟敏感的场景有效

最近，端侧AI，尤其是端侧生成式AI (generative AI at the edge) 成了热门话题。说实话，这不过是那些错失云端AI (Cloud AI) 大潮的公司在垂死挣扎罢了。要判断端侧AI是否真的有价值，其实有个简单的标准：这个应用能不能容忍延迟。如果你非要把视频流传到云端去做什么AI增强背景模糊，那可真是脑子进水了。且不说隐私问题，光是延迟就够你受的。这种场景，当然是设备端AI更合适。

再比如自动驾驶。假设你的无人车用神经网络 (neural network) 检测前方行人。非得把视频传到云端去识别，等结果传回来，没准就出人命了。端侧AI当然有它的用武之地。但在这个云AI主导的新世界里，它只是个配角。

7 GPU vs ASIC：灵活性的权衡

业界常有声音质疑 GPU 在AI领域的效率，认为它们本质上是为图形设计的，并不真正适合AI运算。

对此，我想从以下两点进行反驳。

首先，现代数据中心 GPU 已经不是传统意义上的 GPU 了。

很多图形电路已经被专用集成电路 (ASIC) 替代。Tensor core、Transformer engine这些，都是针对AI优化的 ASIC 模块。

其次，我们需要重新思考什么是「专用集成电路 (ASIC)」，以及它们在AI领域是否真的优于GPU。

说实话，ASIC 并没有一个严格的定义。回顾历史，在很久以前，所有不是 CPU 的芯片都被笼统地称为 ASIC。甚至在20世纪90年代，GPU 也曾被归类为 ASIC，直到后来才发展成为一个独立的类别。我常常把 ASIC 比作计算机架构领域的"梅西"。它们在特定任务上表现卓越 (就像梅西在前锋位置上无可匹敌) ，但在其他方面则显得力不从心 (比如让梅西去当守门员、物理学家、数学家、建筑师或医生) 。

让我们看几个现实世界的例子....

细心的你可能已经注意到，上述ASIC例子都是更大的片上系统 (SoC) 的一部分，它们与 CPU 和 GPU 核心共存于同一芯片上。

纵观计算机发展史，只有两类专用 ASIC 芯片成功实现了高毛利率 (超过50%) 的大规模横向销售：

GPU，它们最终成长为一个独立的品类
独立/薄型调制解调器

在当前生成式AI大行其道的时代，业界热议超大规模 ASIC 项目，如谷歌/博通的 TPU 和 Meta / 博通的 MITA 有望取代 NVIDIA 的 GPU 地位。

然而，事情真的会如此发展吗？让我们拭目以待。

原文： https://irrationalanalysis.substack.com/p/a-background-proof-guide-on-ai

人工智能系统的基本原则

1 复杂性是必要的

2 开放标准不一定是最优解

3 Scaling 的瓶颈是显存

4 Scaling Law 就不能算是个 Law

5 AI真的适用于所有问题吗？

6 端侧AI仅对延迟敏感的场景有效

7 GPU vs ASIC：灵活性的权衡

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅