创业公司，如何做好AI?

内容来源：2023年7月8日，杭州AIGC 赋能商业 & 视频号峰会。

本次会议主要介绍了创业公司如何应用最新的AI模型，包括生成式AI技术和应用方向。

其中，可控性是生成式AI的核心，随着多模态人工智能的出现，可控性将不断提高。同时，还介绍了AI技术在视频处理、3D、音频等领域的应用。

此外，还介绍了AI对创业公司的影响和如何通过AI来有效减小团队规模。最后，还介绍了多个基于AI的创业公司在AI领域中的新应用，包括zoomai、多模态AI模型技术、数字人应用、虚拟角色等。

一、生成式AI技术与应用方向

1.生成式AI技术介绍
13235144-2023-09-13T15:51:59.png

上图是由a16z风投公司制作的关于生成式AI技术的堆栈图。

最底层是Compute Hardware（计算硬件），包括谷歌的 TPUs 和英伟达的 GPUs。

再往上是Cloud Platforms云平台，有亚马逊的 AWS、谷歌的 GCP、微软的 Azure 等。

在云平台之上，有端到端的应用程序，如Mid journey绘画APP、Runway游戏等，它们使用云平台的服务和自有的GPU。

再往右是应用程序。应用程序有两种类型：一种是代码闭源，提供API，如GPT-3；另一种是完全开源的基础模型，即源代码或训练参数都是开源的。

开源模型有两种：一种是开源源代码，另一种是开源训练参数和训练材料。

再往上是Model Hubs（模型中心）。例如 Hugging Face。这些公司虽然年轻，但已经获得了很高的估值。它们可以在开源模型上部署环境，让用户运行AI模型。

最上层是应用程序，这些应用程序可以使用开源模型或API在其上运行。有些公司甚至会在自己的产品上运行API和开源模型。

对于创业公司或在AI领域没有足够积累的大公司，他们可以从两方面入手：一方面，他们可以使用API或开源模型，在其基础上构建自己的服务，开发AI原生产品或功能。另一方面，他们可以使用别人的端到端产品或现有应用程序，然后自己开发一些提高效率的工具，以提升AI的性能。

2.生成式AI的6个应用方向

在讨论人工智能时，一个重要主题是可控性，这也是生成式AI或称之为Gen AI的核心。人工智能的发展历程实际上是一个可控性不断提高的过程。换句话说，即使一个技术或产品非常出色，但如果它的可控性不佳，那么它仍然无法被广泛应用。
13235204-2023-09-13T15:52:19.png

上图从左到右可以看到一个明显的趋势，即可控性在不断提高。

最早的人工智能产品完全不可控，它们可能仅是实验性产品。然而，随着 GPT2 和 GPT3 的出现，我们在低可控文本生成方面取得了很大进步。尽管它们的可控性仍然较低，但它们的 GPD（生成性预训练数据）表现非常出色，进一步提高了它们的可控性。

目前，我们正在迈向多模态人工智能，未来我们还将看到AGI（通用人工智能）和 ASI（超级智能）的出现。AGI 意味着人工智能可以比人类做得更好，而 ASI 则意味着人工智能已经超越了人类。这些都代表着我们在人工智能领域不断前进的步伐。

因此，可控性的本质是让我们的产品和初步成果越来越接近我们的期望，越来越符合我们的需求。这也是我们在使用人工智能提高效率时需要考虑的重要因素。

在 AI 领域，开源项目层出不穷，为创业公司和非专业领域的公司提供了许多免费且实用的资源。

接下来，我将从6个维度为大家分享一些最新的开源项目，大家可以根据实际需求进行选择和应用。

① 视频

第一，Rerender 开源产品

这是今年刚开源的一个项目。它不仅能帮助你将视频换一种风格，还能让你通过简单的文字描述轻松地生成具有艺术家风格的视频。

在没有使用Rerender的情况下，如果你想替换视频风格，会发现视频画面跳动得很厉害，但使用Rerender算法后，画面会变得平缓许多。这正是Rerender的魅力所在。

在GitHub上，你可以找到Rerender的源代码。实际上，我也是通过这个平台找到它的。你可以输入一些简单的文字描述，例如，我想要一个梵高风格的视频，Rerender会根据你输入的描述生成一个梵高风格的视频。

第二，Deep Face

Deep Face AI项目展示了AI技术在视频处理方面的巨大潜力。通过这个模型，我们可以轻松地将一个视频中的脸替换成另一个视频中的脸。

尽管Deep Face的源代码并未开源，但您可以在网上轻松找到类似环境来训练自己的模型。

训练过程其实很简单，你只需要用一个不到一分钟的视频来训练模型，告诉它这是钢铁侠的脸。然后再将另一个视频输入模型，它就能将脸替换过来。

第三，Roop

Roop AI项目与刚刚提到的Deep Face不同。Roop可以直接转换一张图片，而不需要进行视频训练。虽然效果可能没有Deep Face好，但它的优势在于速度快。只需一分钟或两分钟，就可以生成一个有趣的视频。

Roop是一个开源项目，你可以在网上找到它的代码。举个例子，如果你想将一份文档换成你自己的头像，只需要使用Roop进行处理，就可以得到一个有趣的视频。

在使用Roop时，大家需要遵守法律法规。尽管这个项目很有趣，但我们仍需遵守相关法规，避免不正当用途。

② 3D

AI在3D领域中进展最慢，但其潜力仍然很大。目前，3D主要应用于游戏素材的制作，例如贴膜和纹理。

尽管一些技术可以直接生成3D模型，但目前效果仍不理想。不过，AI可以生成一些类似于3D效果的平面图。
13235410-2023-09-13T15:54:25.png

需要注意的是，这些图片并非真正的3D，而是AI生成的3D效果。

最近，英伟达推出了一个新的 3D 项目，它可以实现动作捕捉。例如，老师用剑去砍这样的动作，这些动作都是通过 AI 训练大量图片来实现的。据说原神等游戏都在与英伟达合作，使用这种动作捕捉技术。

如果我们不去学习这些新技术，可能会被淘汰。例如，詹同学他们以前做动作捕捉需要大量人，但现在全都是 AI 做，所以对他们来说，可能极大提升效率。

③ 音频

AI在音频领域的技术包括文字转换、语音转换、以及生成音乐等，这些技术都具有很多应用场景。
13235419-2023-09-13T15:54:35.png

Bark开源工具是今年年初推出的，我认为它在所有文字转换语音工具中效果最好。

此外，还有一款工具so-vits-svc，可以将语音转换成不同的音色。
13235429-2023-09-13T15:54:45.png

之前有一个电数字版的孙燕姿，实际上是采用了这个开源模型。同时，我也提到了两个生成歌曲的例子，一个是文字转换语音，另一个是语音转换。

对于音频转换，实现方式有些复杂。您需要输入您喜欢的声优音频并训练模型，这样便可将这个声音应用到您喜欢的歌曲中。

目前硅谷有很多团队在进行类似项目。年初时，这些项目还容易获得融资。但整体而言，音频项目相对于其他领域还是有所差距。不过，基于大语言模型的项目整体上还是不错的。

④ 图片

在图片领域，有4种主流技术。

第一，Diffusion - image/video generation（漫射图像/视频生成）。这是一种通过降噪生成图片或视频的技术。

如上图所示，你将得到一张噪音图，并通过不断优化，最终生成一张清晰的图片或视频。

第二，ControlNet，这是一种增强AI可控性的技术。它的原理是在生成过程中，通过控制某些变量，达到生成特定样式图片的目的。Controlnet具有开源性质，使得更多开发者可以参与其中，不断优化和改进。

我们可以提供一张道路图片，通过AI技术生成与原图相似的新道路。如上图所示，如果你提供一个素描，AI可以根据这个素描生成相应的图片。或者，如果你提供一个Sketch，即一种简单的图形框架，AI也可以在此基础上生成新的图片。

此外，还有一种名为open pose,的技术，它是基于一个人的样子进行生成。简单来说，你可以给AI一个参考图片，让它根据这个参考生成新的图片。

第三，Drag GAN技术是ControlNet的相似技术。通过设定一个点，您可以将其移动到图片的任何位置，从而实现对图片的操控。这样一来，我们不仅可以轻松地改变图片的大小和位置，还可以实现更多令人惊叹的效果。

未来，我们或许不需要花时间学习Photoshop这样的软件，只需轻轻一点，AI就能帮我们生成任何我们想要的图片。这对于想要快速改变图片的人来说，无疑是一个极大的便利。

第四，LoRA是一种增加可控性的实践方法。与刚刚提到的ControlNet类似，通过设定一个控制点来实现对图片的操控。不过，LoRA更进一步地可以帮助我们训练出一个特定的风格。

以公司APP中的游戏截图作为参考，通过训练LoRA，让AI生成类似风格的图片。如果我们不训练自己的LoRA，它会默认生成一种风格，但这种风格可能并不符合我们的期待。因此，我们可以将已经做好的地图、小人等素材训练进去，让AI根据这些素材生成新的图片。

这样做的好处有很多，首先，这些图片都是由AI生成的，成本低。其次，AI能够生成各种风格，因为它见过很多张图，所以能画出来的东西比我们想象的要多。最后，AI可以帮助我们快速找到不同的素材，例如我们只需要在图片上圈出一个区域，告诉AI我们想要什么样的图片，AI就能立刻为我们生成。

这样一来，我们的工作效率能得到极大提高。而且，AI生成的图片不仅可以满足我们的需求，还能为我们提供更多的灵感和选择。

⑤ 代码

如果你的团队里有工程师，我建议大家尝试使用AI辅助编写代码。例如，我可以给出一些文字说明，如, ad customer email, AI可以根据这个生成相应的SQL代码。或者，我可以把原本的JavaScript APP代码转换成Python。

目前，AI在代码领域的应用已经非常成熟，分为多模态和纯大语言模型两种类型。实际上，代码领域的AI学习速度非常快，因为GitHub上有大量的代码供它学习。以前人们认为只有大公司的工程师才能见到各种代码，但现在，你在GitHub上就可以学习到各种代码，无需加入大公司。

在GitHub上，有许多优秀的代码可以用于训练AI，这些AI甚至比人类工程师写得更好，且bug更少。它们可以不间断地工作，提高编写代码的效率。目前，我们有一些内部用的AI代码辅助工具，这些工具可以帮助工程师更快地编写代码。

例如，有些工程师以前从未写注释，但当你发现他们的代码里注释特别清楚时，很可能他们已经开始使用AI辅助编写代码了。使用AI代码辅助工具，可以让工程师更高效地编写代码，提高工作效率。

此外，对于一些老项目，如果有员工已经离职，我们可以将代码交给AI，让AI帮助我们生成注释。这样，即使员工离职，项目的进展也不会受到太大影响。这也是我们现在编写代码时使用AI的一个重要原因。

⑥ 文字

文字是提高效率的关键。以ChatGPT为例，它采用了3.5的语法，展示了文字的强大潜力。

首先Prompt语法是关键。

虽然这个秘方很少有人知道，但它对于使用ChatGPT非常重要。
13235501-2023-09-13T15:55:17.png

你需要清楚地写出以下要素：任务、指令、角色和关键词。尤其是关键词非常重要，它包含了你的核心点，把这些写清楚，代码的输出结果会更好。

其次，Temperature 也是一个重要概念。

Temperature是ChatGPT官方的一个功能，名为platform。Temperature的调整是什么？Tempter的分数值越低，提供的数据值越保守，分数值越高，表现出越狂野。
13235526-2023-09-13T15:55:41.png

我们可以进行一个实验，让他写一首诗。当Temperature等于0时，他不会给我写一首诗。但当Temperature变为1时，他已经增加了很多丰富度。当Temperature等于1.5时，他已经在胡了。

当然，在写作业时，我们需要避免使用过高的Temperature，以免被老师发现。

我们公司目前主要使用ChatGPT进行翻译工作。我们正在开发自己的2．0版本工具，以便更好地在内部使用。此外，我们还让ChatGPT帮助撰写一些文案，现在基本上不需要人工写作了。

3.如何让AI的回答更准确？

1364乘以2343等于多少？对于这个问题，Google的正确答案是3195852。但ChatGPT给出的答案可能有些出入。人的大脑本质上是一个预测模型，会根据过去的经验进行预测。

ChatGPT作为一个人工智能助手，其逻辑基于概率。它可能会给出一个大概率的答案，但并不保证完全正确。这就需要我们理解ChatGPT或者大语言模型的运作逻辑。

第一，Few Shots

Few Shots是一个心理学概念，指在有限情况下进行学习和决策。对于ChatGPT，在训练过程中会给出大量例子以便进行有效学习。这也是为什么ChatGPT在UGP3和GP4之后的表现如此出色。因为它在训练过程中不断给出好的和不好的例子以进行有效学习。

第二，Chain-of-Thought

Chain-of-Thought是一种思维方式，指的是逐步进行思考和决策。对于ChatGPT，我们可以给出一个逐步的思考方式，以便它能够更好地学习和决策。这需要我们提供一个有效的思考方式，让它按照这个方式逐步进行学习和决策。

第三，Program-Aided Language

PAL－Aided Language，即使用程序辅助语言进行计算。这种方法在理解问题部分仍使用自然语言模型，但在计算部分使用计算器或Python进行计算。

这就像给孩子一个计算器，让他们用计算器进行计算，而不是用纸笔计算。在使用这种方法时，我们会调用ChatGPT或其他类似模型来理解问题，然后使用Python或其他编程语言进行计算。

第四，OpenAI Plugin

另一种获得正确答案的方法是使用OpenAI的插件。OpenAI自带一些插件可用于计算。这些插件的使用方式与POI类似，但实现方式有所不同。

第五，OpenAI Interpreter

最近，OpenAI推出了一个名为OpenAI Interpreter的工具，非常好用。它可以帮助我们进行大量数据分析和数学运算，甚至可以帮助我们进行Python编程。

我们可以将所有数字数据和文档交给它，让它帮我们完成各种任务。这个工具的使用方式与OpenAI的整个理念非常相似，它们强调使用工具来提高我们的思考能力和边界。

总之，提出正确的问题非常重要。因为人工智能比我们更聪明，他们可以阅读大量的书籍和资料，所以我们很难比它们更有知识。因此，我们需要学会提出正确的问题，让它们能够更好地帮助我们解决问题。

4.AI对创业公司的影响

对于创业公司而言，在不改变业务方向的情况下，能否通过AI有效减小团队规模？这是一个值得探讨的问题。

例如，对于那些初创公司，是否能在不改变业务方向的前提下，利用AI来缩减团队规模？对于这个问题，不知道大家有何看法，是否认为这是可行的？

实际上，创业公司的核心在于找到合适的产品定位，有时会面临招聘不到合适人才来帮助快速实现目标的问题。在这种情况下，AI是否能成为解决之道？虽然这个问题尚未定论，但AI在招聘、培训、管理等方面的应用无疑为解决这个问题提供了新的可能性。

在寻找产品市场匹配PMF之前，很难找到大量人才，因为大家都在寻找PMF。一旦找到PMF，就很难再招到同样优秀的人才。例如，有时候优秀的员工会选择Google、大公司或知名企业，而不会选择我们这种小公司。

但是，拥有了ChatGPT和其他AI技术后，对人才的要求可以降低。以前需要找美术技能很好的人，现在只要他们聪明且愿意学习，就可以胜任。例如，我们招聘应用商店优化师ASO，需要这个人的英语水平达到母语水平，并且至少还会一门额外的外语。

有些人可以承担三个人的工作，但通常不会选择加入我们这样的小公司。在这种情况下，如果有了AI技术，只要这个人聪明且愿意学习基本英语水平，他就能写出优秀作品。面对母语人士，你对人才的要求也可以降低。因此，你可以招聘更多人才。

其次，核心原因是AI技术发展非常快。今天我讲的很多内容实际上都是这周更新的，包括DEC、开放和微调等。这就像我们的员工都在学习AI技术，需要招聘更多人来完成工作。

将这部分生产力用于学习并不是不好的事情，因为这说明技术正在不断迭代更新。无论是大模型还是小模型，都在不断更新。因此，必须保持不断学习，才能发现这项技术是否可以为你所用。

二、通用大语言模型技术与应用

13235541-2023-09-13T15:55:57.png

目前，AI主要涵盖两个领域：一个是语言模型，另一个是多模态。如上图所示，左边展示了与语言模型相关的内容，涵盖了代码和文字生成等方面。而右边则展示了多模态领域的表现，如图片和视频等。

1.基础模型

最近，许多人在讨论ChatGPT的使用体验。由于用户数量众多，算力无法满足需求，据说其智能水平已降低近80％，仅有原来的20％-30％。然而，claude two据说表现还不错，且能识别更长的token。

接下来，我们来看开源模型的进展。
13235554-2023-09-13T15:56:10.png

我已用蓝绿色标记了最新的进展，包括7月份发布的Llama Two。Llama Two的表现相当不错，尽管有些人认为直接使用Llama Two可能没有经过细调，需要进行二次开发。

此外，还有Filecoin，这是中东土豪开发的，其优势在于免费且对商业友好。早期Meta还发布了一个更早的Llama模型，表现相当不错。

那么，哪家公司的LLM技术强？
13235606-2023-09-13T15:56:22.png

今天我找了一个Benchmark，是由MT完成的。他们认为目前整体上最好用的是GPT4。你甚至无需购买大量代码，只需在GPT4中进行编码即可。同时，你刚才提到的code interpreter，让它制作好Python后再转成其他语言，如Golang，整体效果也不错。

在Benchmark中，由于没有Cloud Two，我无法对其进行评价。但据说Cloud Two的v1和v2的表现还不错，大家可以尝试一下。

此外，Llama Two 也可以进行二次开发，但在商用方面需要注意法律风险，因为训练过程中需确保内容是否得到所有者的同意。原则上，这些开源模型不能商用，但大家普遍在使用，风险较小。然而，对于大公司，如Facebook，他们需要承担更多的法律风险。

2.开发范式

第一，Lang Chain编程工具

Lang Chain,这是一种常用的编程工具，它能帮助我们更好地进行编程工作。我们可以使用它进行记忆，也可以用它拆分文档。

FinGPT是一种典型的使用Lang Chain的案例。它是一款开源金融模型，可以做很多事情，如股价预测、投资组合管理，甚至包括风险研究和金融新闻分析。FinGPT是使用Lang Chain调用的ChatGPT API，或者是GPT4.54或GPT3.5的API。在这个过程中，FinGPT不断理解和分析新闻。

Robo Advisor,这是一种智能投顾工具，可以通过分析新闻标题判断股票涨跌。这是一种非常智能化的投资工具。

ChatGPT Trading,这是一种使用ChatGPT进行交易的工具。它是在新的GPT框架下开发的，能在区块链交易中发挥出色作用。

这些都是典型的AI native产品，它们充分利用了Lang Chain这种编程工具，实现了智能化操作。

第二，ChatALL

Chatall的原始代码是开源的，但基于这些代码，开发者可以创建自己的APP。你可以在APP中添加捐赠功能，同时也提供一些付费功能。这就相当于你可以向ChatGPT提出各种问题，获取不同的API服务。

其中，最典型的应用场景是将文档上传，询问相关问题，例如：这个问题的答案是什么？通过调整温度，使得每个人的答案都不尽相同。这就是我们交作业的方式。

此外，还有一些专门针对特定领域的ChatALL版本，如chat Excel，由北大的一位同学开发，主要针对Excel文件进行问答。Pin chat则主要针对金融相关问题，阿发Science同样针对金融领域。而chat doc则会询问关于文档的问题。

另一个名为checklong doc的开源项目，主要功能是基于输入的网页内容来回答特定主题的问题。例如，我可以输入一段关于“word Coin”的网页内容，让程序解释这个词汇的含义，以及它与Open API的关系，应用名称等，以及它具有哪些功能。

此外，还有一个名为elicit的工具，专门用于研究相关领域。其工作原理是将大量文档进行分段处理，然后将这些段落存储到矢量数据库中，最后对这些矢量数据库进行解读。这就是它的底层逻辑。

第三，Agent人工智能助手

谈到人工智能助手，它被认为是踏上人工智能之路的关键。本质上，它通过各种工具和规划，一步步引导你完成任务。

以AutoGPT视频为例，助手会根据指定的方向，借助AI力量帮助你思考接下来该如何执行。

此外，还有一个典型的人工智能助手实例，即斯坦福大学和谷歌共同创建的AI虚拟小镇。
13235652-2023-09-13T15:57:08.png

这个小镇上生活着25个虚拟人物，他们在2月1日起床后，开始商量第二天的活动安排，例如邀请哪些人，如何组织等。AI虚拟小镇就是这些人工智能助手的工作内容。

3.应用模式演进

第一，Meta GPT

Meta GPT是一个非常有趣的项目，你可以了解到它是如何帮助你创建一个初创公司的。

假设你告诉 Meta GPT，你想要创建一个专注于开发 Blackjack 游戏的初创公司。Meta GPT 会为你进行产品分析、竞品分析，甚至编写代码。

此外，它还能为你的代码进行测试，并撰写相关文档。这一切都可以自动化完成，你只需告诉它你的需求。

虽然目前Meta GPT还无法生成图像，但随着技术的进步，未来它可能具备更多功能。总之，Meta GPT可以为你创建一个完整的初创公司，从文档到产品设计，再到代码编写，都可以由它来完成。

尽管目前Meta GPT的交互方式相对简单，类似于以前使用doc时的文字输入方式，但这也说明AI native的趋势正在逐渐发展。例如，Notion这样的工具将AI功能融入到文档编写中，帮助人们更高效地完成工作。

还有Zoom AI。

Zoom AI 是一个可以帮助你更好地整理会议材料的工具。这是 Zoom 添加的一项新功能，旨在提高用户的工作效率。通过使用Zoom AI，你可以轻松地将会议中的重要信息整理出来，以便于后续的回顾和处理。

三、多模态AI模型技术与典型应用场景

1.可控图片和视频生成
13235705-2023-09-13T15:57:21.png

多模态领域有许多有趣的应用，首先让我们来谈谈Lensa。

Lensa是去年上线的产品，收入非常高，每天的收入可达到400万美金。Lensa主要帮助用户制作精美的图片，虽然当时使用Stable的用户并不多，但Lensa迅速抓住市场，为用户制作了许多炫酷的图片。

接下来，让我们看看Flair Flyer。

这是一个可以帮助市场营销人员去除图片背景并添加新背景的工具，它采用AI来完成这些工作。用户只需提供一句话，Flair Flyer 就会根据这句话生成一张符合需求的图片。例如，用户可以说：我要一张手握Kindle的图片，背景是夜空。然后Flair Flyer就会生成这样一张图片。

再来介绍一下 Rendefusion。

这是一家帮助用户搭建AI环境的公司，它将stable分为开源，让用户更方便地使用。用户只需提供一张简单的线图，Rendefusion就会根据线图生成一张精美的图片。

在AI模型方面，APR是一个训练模型丰富的平台，尤其是它的小黄篇模型，训练内容主要是黄篇，因此生成的图片非常丰富。这是一个值得大家收藏的平台。

此外，还有C站和C lit两个平台。它们提供了大量AI模型，可以生成各种精美图片。这些图片由机器生成，与人工无关。用户可根据自己需求选择合适模型，然后生成相应图片。

最后，让我们来看一些基于AI的数字人应用。

这些数字人应用主要为创业公司提供服务，帮助他们更好地选择模型。炼丹阁和黑站都是一个具有代表性的数字人应用，它们的CEO亲自讲解了产品，大家可以观看，这些都是AI生成的。

2.虚拟角色

Protoca是一个较老的产品，主要用于虚拟朋友和虚拟偶像的replica。而Para doc则是一个相对较新的产品，与Protoca的replica不同，它主要进行了更多的上下文处理。

当我们与AI进行聊天时，它会记住我们与它聊过的每一句话。而call ID则是我们可以与AI的MOS进行视频通讯的方式。如果大家有兴趣，可以去查看。

另外，In Word AI是一个AI native产品，它的目标是将游戏中的所有角色都制作成NPC，但目前真实网站上的功能较少。这意味着，它希望通过AI生成游戏中的素材，使每个人的游戏体验都独一无二。

以上就是这些创业公司在AI领域中的新应用，通过AI生成的游戏素材，使得每个人的游戏体验都是不同的。

3.3D场景和对象的生成或重建

YAHAA是一家致力于创建3D多人游戏的公司，让我们简单了解一下。紧接着是IN3D，这家公司专注于3D领域，他们的目标是创造许多虚拟角色，并在3D环境中实现实时互动。IN3D希望将现实生活中的人物转变为虚拟角色，当现实生活中的人物移动时，虚拟角色也会随之而动。

Roleverse和Rowords两家公司的目标相似，但侧重点略有不同。Roleverse和Rowords希望创建一个更加炫酷的3D虚拟世界，这个世界并非某个人的形象，而是一个完整的虚拟世界。用户可以创建物品，系统会自动生成一个背后的世界。

这里还涉及到一些跨模态的任务，如之前提到的虚拟角色、3D场景等。总的来说，这些公司主要以游戏和元宇宙为主导，致力于创造全新的虚拟世界。

4.跨文本、图像、视频等多模态语义的搜索或推理任务

刚刚提到的许多创业公司的项目，同时也有一些大公司在进行相关研究，例如微软的Hugging GPT项目。尽管这个项目尚处于初级阶段，但我强烈建议大家阅读它的论文和开源代码。

Hugging GPT由微软开发，主要功能是通过ChatGPT对输入指令进行分解，然后找到不同的AI模型将这些指令转化为现实。它已经连接了大约300多个AI模型。
13235800-2023-09-13T15:58:16.png

例如，你可以询问图片里有几只斑马。系统会给出准确答案，同时还会告诉你使用了哪些模型进行识别。

此外，Hugging GPT还打破了文字和图片的边界。例如，您可以输入一张女孩在读书的图片，系统会自动根据您的输入生成一张相应的图片。同时，您还可以为这张图片配上文字，形成一个完整的场景。

Hugging GPT的理念是专家模型+通用大语言模型。通用大语言模型主要用于理解、规划和选择工具，而具体的工具操作则由专家模型完成。在这个项目中，微软在Hugging Face上找到了一些特殊模型作为专家模型。整个过程完全由机器自动完成，充满了科技感。

关于AI的其他思考角度，我之前提到了Control Net，这是目前许多人期望的发展方向。他们希望AI能够无所不能，甚至取代人类完成一些复杂的任务。

我认为，我们可以从其他角度审视AI，例如将AI native产品按照文字、视频、code等不同形式进行分类，或者从行业特定、跨模态、通用型等角度进行区分。
13235816-2023-09-13T15:58:32.png

此外，我们还可以将AI模型按照应用场景进行分类，例如开发工具、AI产品、ToC和ToB等。这些模型在不同场景下具有不同特点，如产品ivity、陪伴性、游戏相关性等。

我记得有一句话来自一本书《个人主权》，说的是：“It's the best possible time of being alive, when almost everything you thought you knew is WRONG”它描述了AI领域的现状。当前，许多新事物不断涌现，许多我们今天认为正确的事物，明天可能就是错误的。然而，正是这种不断迭代更新的特点使AI领域充满了魅力。

原文：https://mp.weixin.qq.com/s/1cl46Rr6Ypy5QJ2AjYyEiw

一、生成式AI技术与应用方向

二、通用大语言模型技术与应用

三、多模态AI模型技术与典型应用场景

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅