六个月前,我开始研究生成式 AI 视频编辑器。我一开始的假设是,最新的机器学习模型将解锁一种以前不可能实现的新型软件。当然,我不知道这个新软件会是什么样子,所以我决定从我最小的想法开始构建。从那时起,适用于视频、音频和文本的模型数量呈爆炸式增长。似乎每周都有一个新的、更有效的模型,我应该重写我的应用程序。尽管有 15 年的后端应用程序开发经验,但过去 6 个月在 AI 领域的工作告诉我,它与云和移动的兴起有着根本的不同。关于使用这些模型构建的下一代应用程序会是什么样子,以及如何部署它们,仍然存在很多悬而未决的问题。但是,我想分享一些到目前为止让我感到惊讶的事情,关于构建 AI 应用程序。

在构建人工智能产品时,道德是业务和产品的首要关注点

鉴于我正在开发视频编辑器,当我选择要构建的内容时,需要解决许多道德和伦理问题。模特现在可以克隆声音、替换面孔,并以用户想要的任何方式移动身体。为用户提供自行执行此操作的工具不仅是一个道德和同意的问题,也是一个长期商业可行性的问题。如果诉讼将用户滥用行为归咎于您,会发生什么?为裸体做简单的块很容易,但还有什么呢?除了法律上的谴责之外,你能忍受那些不信任这项技术并认为它会导致失去个人同意的潜在暴徒吗?对于生成式人工智能的长期影响,没有比加密货币领域正在发生的事情更好的例子了。长期以来,公司都是在模糊的道德和法律基础上运作的。法律体系最终赶上了生态系统,而那些由于缺乏行动而被认为是合法的东西却没有。我希望我们最终会在人工智能产品中看到同样的情况。

这些模型实际上并不重要,因为下周会有更好的模型

这是一个疯狂的见解,因为六个月前我会嘲笑这种可能性。但这些模型在实践中并不重要。构建任何模型都是一场逐底竞赛,也是一场红皇后竞赛。在这一点上,许多非常聪明的人正在构建具有数十亿美元计算和资源的模型。这些巨型模型将在很大程度上没有来自许多GPU穷人的投入,并且对于最终用户来说,将在很大程度上是经过严格审查的不透明黑匣子。剩下的就是使用不断改进的小型模型集合,并在它们之上构建工具和界面。而构建这些接口才是真正的价值所在。开放模型将继续改进,技术水平将继续得到推动。模型本身必须是可互换的,因为更好的模型会比你想象的更快出现。但这些模型目前是不可预测的,难以理解。为模型带来理解,或者至少是可预测性,显示出作为护城河的潜力。(当然,如果AGI来了,任何地方都不会有护城河,除非你拥有比竞争对手更大的能源、计算和水源。哦,你的模特更擅长窃取他们模特的权重,而且......

不久的将来会很奇怪

在这一点上,作为训练数据源的互联网正在被生成的文本和图像所填充,而这个模型生成的输出的噪音只会继续增长。我们可以假设最终输出会变得如此之好,人类将无法与人类生成的内容区分开来。这对我们人类意味着什么,如果我们目前进行大部分社交互动的地方不再是主要人类内容?根据您的观点,我们可能已经有了答案。社交媒体平台的算法已经具有令人难以置信的粘性,并且善于吸引我们的注意力。如果算法和生成式 AI 的结合构建了完美的斯金纳盒子呢?然后,算法将竞争,看看谁能提供用户目前想要的最佳、最量身定制的情感体验。然后,我们有一个精心编排的算法来巧妙地塑造人类的行为。

开源从根本上处于弱势地位

当我开始开发软件时,开源给了我一些工具,这是我作为一个年轻人买不起的。一个编译器要花几百美元,但一张 Linux CD 让我可以立即开始构建所需的所有工具。快进一二十年,我从事软件开发工作,开源为云提供了动力。数万亿美元的经济价值是在开源贡献的支持下产生的。但对于机器学习来说,有两个基本限制,需要获得资本才能扩大规模。在低端构建一个大型模型可能要花费数百万美元,并从那里发展成为最先进的模型。构建一台用于训练较小模型的家用计算机可能需要数千美元,尤其是在需要多个高端 GPU 的情况下。此外,要训练的数据集很大!在过去的六个月里,我一直在工作,我已经多次达到我的 ISP 的带宽上限,只是使用模型。如果我从互联网上获取训练数据,情况会变得更糟。鉴于参与成本高昂,开源的进入门槛比以往任何时候都高。能够处理这些大型模型的深度学习实验室只有这么多。这意味着开源模型的眼睛会更少,更小,直到硬件变得更便宜,数据分布更均匀,或者开发得到风险投资或政府的补贴。

现有企业具有很强的优势

关于初创公司的传统说法之一是,它们小而灵活,可以比大公司更快地构建东西。但对于生成式人工智能来说,事实并非如此。目前,构建更好的模型需要获得资金和数据。大公司两者兼而有之。构建良好的最终用户体验意味着在模型周围使用工具,以便于探索并更好地理解模型的行为。同样,现有公司已经建立了多年建立的接口,可用于在推理之前和之后增强数据。但是,在过去两年中,如何对待最优秀的开发人员确实存在弱点。随着裁员的到来,公司已经与名册上一些最优秀、最有才华的开发人员分道扬镳。如果没有它们来驾驭现有产品与这些模型创造的新可能性之间的界限,尽管有这些固有的优势,大公司将失败。

我们不知道护城河从何而来

如果你现在看一下人工智能,护城河似乎相对较少。当然,英伟达似乎拥有最大的一个。他们构建了 GPU,但更重要的是,他们还构建了支持研究人员和构建者的库和软件。十多年来,他们一直在为他们建设基础设施。没有其他公司像现在这样,在构建加速计算的工具上投入了如此大的投资,并且有着如此一致的愿景。当然,从那时起,就有了OpenAI的故事,他们建立了一个模型,在一年内为他们带来了10亿美元的收入。但是,OpenAI的护城河有多可防御性?开源模型正在迎头赶上,在 OpenAI 的最后一个演示日,他们展示了 LaundryBuddy 等产品,这与 GPT-4 到 AGI 之后的下一步相去甚远。事实是,我们不知道生成式人工智能的护城河从何而来。与此同时,镐和铲子公司将做得很好。像 Modal 和 Replicate 这样的平台将使开发人员能够轻松使用 ML 工具,我们很快就会看到机器学习的 Uber 是什么样子的。

机器人技术可能是下一个护城河

构建和测试机器人的成本很高,因为现实世界比软件建模要困难得多。一个基本的自动化机器人可以起价为 20k+,当你考虑到必须在现实世界中测试每个软件更改以及可能意外损坏的硬件时,开发迭代循环可能非常缓慢。为了解决这个问题,NVIDIA 一直在构建和推广其下一代平台 Omniverse。Omniverse 是一个用于对环境进行建模和仿真的平台。例如,您可以使用数字孪生在西雅图的高分辨率扫描中重建和测试无人机的性能。使用光线追踪和数字环境,您可以对机器人进行建模、测试,更重要的是,可以虚拟地生成逼真的训练数据,从而在数字环境中运行数以万计的模拟测试。在这一点和模型能力的增长之间,一个能够驾驭物理、云和模型边界的敏锐团队应该能够构建一个类似 iPhone 的技术协调护城河。这是双足机器人,还是其他东西,还有待观察。

没有人能跟上进度

即使是我的同龄人中最聪明、最深思熟虑的人,似乎也跟不上这个领域的进步速度。似乎每周我们都会得到一个新的突破,一个可能有应用的突破,或者有助于我们解决当前问题的突破。正因为如此,我们很容易对我们选择的问题空间产生潜在的不安。是死胡同吗?有没有其他地方可能会有更好的结果?有没有我应该追求的完全不同的架构?在技术领域,人们一直对学习最新技术的步伐感到不安。但在人工智能领域,这感觉比我经历过的任何事情都要快。你如何设法保持专注,同时不被锁定在死胡同里,是有效驾驭空间的核心部分。

边缘的共鸣多于硬数据

如何衡量大型语言模型的性能?更重要的是,你如何用另一种语言模型来衡量它?目前,在可用的模型之间进行了权衡,并且有一些工具可以使用相同的提示来尝试它们,以查看结果的差异。但在很大程度上,这些关于性能最高模型输出“正确性”的意见大多是直觉意见。随着时间的流逝,人们认为他们已经变得更糟了,而黑匣子模型提供商则坚持认为一切都没有改变。(当然,对模型的能力有正式的测试,但大多数专家都认为这些是有缺陷的。由于“正确”答案与个人认为正确的答案之间存在相对差距,因此不会真正衡量“正确”答案是什么。例如,如果一个街头毒贩向你的语言模型询问有关扩大其市场占有率的策略的问题,那么什么样的回答应该被认为是“正确的”?

保密性和安全性以通常不具备的方式发挥作用

您认为 GPT-4 原始重量的市场价值是多少?如果有人将它们作为 Torrent(如 LLama)泄露,那么它需要多久才能被优化为在消费类硬件上运行?语言模型公司目前的护城河围绕着他们的权重永远不会被泄露的前提。这意味着他们必须信任他们的云提供商、员工和系统的安全性,以保护他们基础设施的每一层以及他们的整个业务。我敢肯定,来自世界各地的情报机构都对这些高级语言模型及其员工的应用感兴趣。我也不指望这些公司会自己捍卫自己的技术。在这个数字和数亿美元以上的训练运行之间,机器学习的高层有点可怕!把那些相信训练运行对人类的未来可能是灾难性的人扔进去,这些公司肯定会有一些阴谋。

在即将到来的人工智能领域找到自己的位置

我最近在一个播客上接受了采访,并被问及机器学习的未来。当时,我不确定是否要提供任何形式的建议。在这个领域工作了六个月后,我对进入这个领域的人没有任何纯粹乐观、鼓舞人心的建议。对于建筑商来说,这里确实存在陷阱,而现有企业确实在该领域拥有不平凡的优势,而这些优势在云或移动领域却没有。尽管如此,我仍然想建立,并鼓励其他人也这样做。当软件开始接管世界时,它有可能疏远那些不了解它是如何构建的人,因此无法模拟它的行为方式。但人工智能威胁要对其他人做同样的事情。除了几千名工程师和研究人员之外,其余的人类将受制于关于优先考虑、审查和标记为这些巨型模型的正确答案的决定。这是一个非常重要的集体决定,不能留给这么少的人。虽然开源和 GPU Poors 可能没有相同的优势,但我相信我们必须尝试。

原文:https://makeartwithpython.com/blog/thoughts-on-generative-ai/