内容来源:2023年7月8日,杭州AIGC 赋能商业 & 视频号峰会。

本次会议主要介绍了创业公司如何应用最新的AI模型,包括生成式AI技术和应用方向。

其中,可控性是生成式AI的核心,随着多模态人工智能的出现,可控性将不断提高。同时,还介绍了AI技术在视频处理、3D、音频等领域的应用。

此外,还介绍了AI对创业公司的影响和如何通过AI来有效减小团队规模。最后,还介绍了多个基于AI的创业公司在AI领域中的新应用,包括zoomai、多模态AI模型技术、数字人应用、虚拟角色等。

一、生成式AI技术与应用方向

1.生成式AI技术介绍
13235144-2023-09-13T15:51:59.png

上图是由a16z风投公司制作的关于生成式AI技术的堆栈图。

最底层是Compute Hardware(计算硬件),包括谷歌的 TPUs 和英伟达的 GPUs。

再往上是Cloud Platforms云平台,有亚马逊的 AWS、谷歌的 GCP、微软的 Azure 等。

在云平台之上,有端到端的应用程序,如Mid journey绘画APP、Runway游戏等,它们使用云平台的服务和自有的GPU。

再往右是应用程序。应用程序有两种类型:一种是代码闭源,提供API,如GPT-3;另一种是完全开源的基础模型,即源代码或训练参数都是开源的。

开源模型有两种:一种是开源源代码,另一种是开源训练参数和训练材料。

再往上是Model Hubs(模型中心)。例如 Hugging Face。这些公司虽然年轻,但已经获得了很高的估值。它们可以在开源模型上部署环境,让用户运行AI模型。

最上层是应用程序,这些应用程序可以使用开源模型或API在其上运行。有些公司甚至会在自己的产品上运行API和开源模型。

对于创业公司或在AI领域没有足够积累的大公司,他们可以从两方面入手:一方面,他们可以使用API或开源模型,在其基础上构建自己的服务,开发AI原生产品或功能。另一方面,他们可以使用别人的端到端产品或现有应用程序,然后自己开发一些提高效率的工具,以提升AI的性能。

2.生成式AI的6个应用方向

在讨论人工智能时,一个重要主题是可控性,这也是生成式AI或称之为Gen AI的核心。人工智能的发展历程实际上是一个可控性不断提高的过程。换句话说,即使一个技术或产品非常出色,但如果它的可控性不佳,那么它仍然无法被广泛应用。
13235204-2023-09-13T15:52:19.png

上图从左到右可以看到一个明显的趋势,即可控性在不断提高。

最早的人工智能产品完全不可控,它们可能仅是实验性产品。然而,随着 GPT2 和 GPT3 的出现,我们在低可控文本生成方面取得了很大进步。尽管它们的可控性仍然较低,但它们的 GPD(生成性预训练数据)表现非常出色,进一步提高了它们的可控性。

目前,我们正在迈向多模态人工智能,未来我们还将看到AGI(通用人工智能)和 ASI(超级智能)的出现。AGI 意味着人工智能可以比人类做得更好,而 ASI 则意味着人工智能已经超越了人类。这些都代表着我们在人工智能领域不断前进的步伐。

因此,可控性的本质是让我们的产品和初步成果越来越接近我们的期望,越来越符合我们的需求。这也是我们在使用人工智能提高效率时需要考虑的重要因素。

在 AI 领域,开源项目层出不穷,为创业公司和非专业领域的公司提供了许多免费且实用的资源。

接下来,我将从6个维度为大家分享一些最新的开源项目,大家可以根据实际需求进行选择和应用。

① 视频

第一,Rerender 开源产品

这是今年刚开源的一个项目。它不仅能帮助你将视频换一种风格,还能让你通过简单的文字描述轻松地生成具有艺术家风格的视频。

在没有使用Rerender的情况下,如果你想替换视频风格,会发现视频画面跳动得很厉害,但使用Rerender算法后,画面会变得平缓许多。这正是Rerender的魅力所在。

在GitHub上,你可以找到Rerender的源代码。实际上,我也是通过这个平台找到它的。你可以输入一些简单的文字描述,例如,我想要一个梵高风格的视频,Rerender会根据你输入的描述生成一个梵高风格的视频。

第二,Deep Face

Deep Face AI项目展示了AI技术在视频处理方面的巨大潜力。通过这个模型,我们可以轻松地将一个视频中的脸替换成另一个视频中的脸。

尽管Deep Face的源代码并未开源,但您可以在网上轻松找到类似环境来训练自己的模型。

训练过程其实很简单,你只需要用一个不到一分钟的视频来训练模型,告诉它这是钢铁侠的脸。然后再将另一个视频输入模型,它就能将脸替换过来。

第三,Roop

Roop AI项目与刚刚提到的Deep Face不同。Roop可以直接转换一张图片,而不需要进行视频训练。虽然效果可能没有Deep Face好,但它的优势在于速度快。只需一分钟或两分钟,就可以生成一个有趣的视频。

Roop是一个开源项目,你可以在网上找到它的代码。举个例子,如果你想将一份文档换成你自己的头像,只需要使用Roop进行处理,就可以得到一个有趣的视频。

在使用Roop时,大家需要遵守法律法规。尽管这个项目很有趣,但我们仍需遵守相关法规,避免不正当用途。

② 3D

AI在3D领域中进展最慢,但其潜力仍然很大。目前,3D主要应用于游戏素材的制作,例如贴膜和纹理。

尽管一些技术可以直接生成3D模型,但目前效果仍不理想。不过,AI可以生成一些类似于3D效果的平面图。
13235410-2023-09-13T15:54:25.png

需要注意的是,这些图片并非真正的3D,而是AI生成的3D效果。

最近,英伟达推出了一个新的 3D 项目,它可以实现动作捕捉。例如,老师用剑去砍这样的动作,这些动作都是通过 AI 训练大量图片来实现的。据说原神等游戏都在与英伟达合作,使用这种动作捕捉技术。

如果我们不去学习这些新技术,可能会被淘汰。例如,詹同学他们以前做动作捕捉需要大量人,但现在全都是 AI 做,所以对他们来说,可能极大提升效率。

③ 音频

AI在音频领域的技术包括文字转换、语音转换、以及生成音乐等,这些技术都具有很多应用场景。
13235419-2023-09-13T15:54:35.png

Bark开源工具是今年年初推出的,我认为它在所有文字转换语音工具中效果最好。

此外,还有一款工具so-vits-svc,可以将语音转换成不同的音色。
13235429-2023-09-13T15:54:45.png

之前有一个电数字版的孙燕姿,实际上是采用了这个开源模型。同时,我也提到了两个生成歌曲的例子,一个是文字转换语音,另一个是语音转换。

对于音频转换,实现方式有些复杂。您需要输入您喜欢的声优音频并训练模型,这样便可将这个声音应用到您喜欢的歌曲中。

目前硅谷有很多团队在进行类似项目。年初时,这些项目还容易获得融资。但整体而言,音频项目相对于其他领域还是有所差距。不过,基于大语言模型的项目整体上还是不错的。

④ 图片

在图片领域,有4种主流技术。

第一,Diffusion - image/video generation(漫射图像/视频生成)。这是一种通过降噪生成图片或视频的技术。

图片

如上图所示,你将得到一张噪音图,并通过不断优化,最终生成一张清晰的图片或视频。

第二,ControlNet,这是一种增强AI可控性的技术。它的原理是在生成过程中,通过控制某些变量,达到生成特定样式图片的目的。Controlnet具有开源性质,使得更多开发者可以参与其中,不断优化和改进。

图片

我们可以提供一张道路图片,通过AI技术生成与原图相似的新道路。如上图所示,如果你提供一个素描,AI可以根据这个素描生成相应的图片。或者,如果你提供一个Sketch,即一种简单的图形框架,AI也可以在此基础上生成新的图片。

此外,还有一种名为open pose,的技术,它是基于一个人的样子进行生成。简单来说,你可以给AI一个参考图片,让它根据这个参考生成新的图片。

第三,Drag GAN技术是ControlNet的相似技术。通过设定一个点,您可以将其移动到图片的任何位置,从而实现对图片的操控。这样一来,我们不仅可以轻松地改变图片的大小和位置,还可以实现更多令人惊叹的效果。

未来,我们或许不需要花时间学习Photoshop这样的软件,只需轻轻一点,AI就能帮我们生成任何我们想要的图片。这对于想要快速改变图片的人来说,无疑是一个极大的便利。

第四,LoRA是一种增加可控性的实践方法。与刚刚提到的ControlNet类似,通过设定一个控制点来实现对图片的操控。不过,LoRA更进一步地可以帮助我们训练出一个特定的风格。

以公司APP中的游戏截图作为参考,通过训练LoRA,让AI生成类似风格的图片。如果我们不训练自己的LoRA,它会默认生成一种风格,但这种风格可能并不符合我们的期待。因此,我们可以将已经做好的地图、小人等素材训练进去,让AI根据这些素材生成新的图片。

这样做的好处有很多,首先,这些图片都是由AI生成的,成本低。其次,AI能够生成各种风格,因为它见过很多张图,所以能画出来的东西比我们想象的要多。最后,AI可以帮助我们快速找到不同的素材,例如我们只需要在图片上圈出一个区域,告诉AI我们想要什么样的图片,AI就能立刻为我们生成。

这样一来,我们的工作效率能得到极大提高。而且,AI生成的图片不仅可以满足我们的需求,还能为我们提供更多的灵感和选择。

⑤ 代码

如果你的团队里有工程师,我建议大家尝试使用AI辅助编写代码。例如,我可以给出一些文字说明,如, ad customer email, AI可以根据这个生成相应的SQL代码。或者,我可以把原本的JavaScript APP代码转换成Python。

目前,AI在代码领域的应用已经非常成熟,分为多模态和纯大语言模型两种类型。实际上,代码领域的AI学习速度非常快,因为GitHub上有大量的代码供它学习。以前人们认为只有大公司的工程师才能见到各种代码,但现在,你在GitHub上就可以学习到各种代码,无需加入大公司。

在GitHub上,有许多优秀的代码可以用于训练AI,这些AI甚至比人类工程师写得更好,且bug更少。它们可以不间断地工作,提高编写代码的效率。目前,我们有一些内部用的AI代码辅助工具,这些工具可以帮助工程师更快地编写代码。

例如,有些工程师以前从未写注释,但当你发现他们的代码里注释特别清楚时,很可能他们已经开始使用AI辅助编写代码了。使用AI代码辅助工具,可以让工程师更高效地编写代码,提高工作效率。

此外,对于一些老项目,如果有员工已经离职,我们可以将代码交给AI,让AI帮助我们生成注释。这样,即使员工离职,项目的进展也不会受到太大影响。这也是我们现在编写代码时使用AI的一个重要原因。

⑥ 文字

文字是提高效率的关键。以ChatGPT为例,它采用了3.5的语法,展示了文字的强大潜力。

首先Prompt语法是关键。

虽然这个秘方很少有人知道,但它对于使用ChatGPT非常重要。
13235501-2023-09-13T15:55:17.png

你需要清楚地写出以下要素:任务、指令、角色和关键词。尤其是关键词非常重要,它包含了你的核心点,把这些写清楚,代码的输出结果会更好。

其次,Temperature 也是一个重要概念。

Temperature是ChatGPT官方的一个功能,名为platform。Temperature的调整是什么?Tempter的分数值越低,提供的数据值越保守,分数值越高,表现出越狂野。
13235526-2023-09-13T15:55:41.png

我们可以进行一个实验,让他写一首诗。当Temperature等于0时,他不会给我写一首诗。但当Temperature变为1时,他已经增加了很多丰富度。当Temperature等于1.5时,他已经在胡了。

当然,在写作业时,我们需要避免使用过高的Temperature,以免被老师发现。

我们公司目前主要使用ChatGPT进行翻译工作。我们正在开发自己的2.0版本工具,以便更好地在内部使用。此外,我们还让ChatGPT帮助撰写一些文案,现在基本上不需要人工写作了。

3.如何让AI的回答更准确?

1364乘以2343等于多少?对于这个问题,Google的正确答案是3195852。但ChatGPT给出的答案可能有些出入。人的大脑本质上是一个预测模型,会根据过去的经验进行预测。

ChatGPT作为一个人工智能助手,其逻辑基于概率。它可能会给出一个大概率的答案,但并不保证完全正确。这就需要我们理解ChatGPT或者大语言模型的运作逻辑。

第一,Few Shots

Few Shots是一个心理学概念,指在有限情况下进行学习和决策。对于ChatGPT,在训练过程中会给出大量例子以便进行有效学习。这也是为什么ChatGPT在UGP3和GP4之后的表现如此出色。因为它在训练过程中不断给出好的和不好的例子以进行有效学习。

第二,Chain-of-Thought

Chain-of-Thought是一种思维方式,指的是逐步进行思考和决策。对于ChatGPT,我们可以给出一个逐步的思考方式,以便它能够更好地学习和决策。这需要我们提供一个有效的思考方式,让它按照这个方式逐步进行学习和决策。

第三,Program-Aided Language

PAL-Aided Language,即使用程序辅助语言进行计算。这种方法在理解问题部分仍使用自然语言模型,但在计算部分使用计算器或Python进行计算。

这就像给孩子一个计算器,让他们用计算器进行计算,而不是用纸笔计算。在使用这种方法时,我们会调用ChatGPT或其他类似模型来理解问题,然后使用Python或其他编程语言进行计算。

第四,OpenAI Plugin

另一种获得正确答案的方法是使用OpenAI的插件。OpenAI自带一些插件可用于计算。这些插件的使用方式与POI类似,但实现方式有所不同。

第五,OpenAI Interpreter

最近,OpenAI推出了一个名为OpenAI Interpreter的工具,非常好用。它可以帮助我们进行大量数据分析和数学运算,甚至可以帮助我们进行Python编程。

我们可以将所有数字数据和文档交给它,让它帮我们完成各种任务。这个工具的使用方式与OpenAI的整个理念非常相似,它们强调使用工具来提高我们的思考能力和边界。

总之,提出正确的问题非常重要。因为人工智能比我们更聪明,他们可以阅读大量的书籍和资料,所以我们很难比它们更有知识。因此,我们需要学会提出正确的问题,让它们能够更好地帮助我们解决问题。

4.AI对创业公司的影响

对于创业公司而言,在不改变业务方向的情况下,能否通过AI有效减小团队规模?这是一个值得探讨的问题。

例如,对于那些初创公司,是否能在不改变业务方向的前提下,利用AI来缩减团队规模?对于这个问题,不知道大家有何看法,是否认为这是可行的?

实际上,创业公司的核心在于找到合适的产品定位,有时会面临招聘不到合适人才来帮助快速实现目标的问题。在这种情况下,AI是否能成为解决之道?虽然这个问题尚未定论,但AI在招聘、培训、管理等方面的应用无疑为解决这个问题提供了新的可能性。

在寻找产品市场匹配PMF之前,很难找到大量人才,因为大家都在寻找PMF。一旦找到PMF,就很难再招到同样优秀的人才。例如,有时候优秀的员工会选择Google、大公司或知名企业,而不会选择我们这种小公司。

但是,拥有了ChatGPT和其他AI技术后,对人才的要求可以降低。以前需要找美术技能很好的人,现在只要他们聪明且愿意学习,就可以胜任。例如,我们招聘应用商店优化师ASO,需要这个人的英语水平达到母语水平,并且至少还会一门额外的外语。

有些人可以承担三个人的工作,但通常不会选择加入我们这样的小公司。在这种情况下,如果有了AI技术,只要这个人聪明且愿意学习基本英语水平,他就能写出优秀作品。面对母语人士,你对人才的要求也可以降低。因此,你可以招聘更多人才。

其次,核心原因是AI技术发展非常快。今天我讲的很多内容实际上都是这周更新的,包括DEC、开放和微调等。这就像我们的员工都在学习AI技术,需要招聘更多人来完成工作。

将这部分生产力用于学习并不是不好的事情,因为这说明技术正在不断迭代更新。无论是大模型还是小模型,都在不断更新。因此,必须保持不断学习,才能发现这项技术是否可以为你所用。

二、通用大语言模型技术与应用

13235541-2023-09-13T15:55:57.png

目前,AI主要涵盖两个领域:一个是语言模型,另一个是多模态。如上图所示,左边展示了与语言模型相关的内容,涵盖了代码和文字生成等方面。而右边则展示了多模态领域的表现,如图片和视频等。

1.基础模型

最近,许多人在讨论ChatGPT的使用体验。由于用户数量众多,算力无法满足需求,据说其智能水平已降低近80%,仅有原来的20%-30%。然而,claude two据说表现还不错,且能识别更长的token。

接下来,我们来看开源模型的进展。
13235554-2023-09-13T15:56:10.png

我已用蓝绿色标记了最新的进展,包括7月份发布的Llama Two。Llama Two的表现相当不错,尽管有些人认为直接使用Llama Two可能没有经过细调,需要进行二次开发。

此外,还有Filecoin,这是中东土豪开发的,其优势在于免费且对商业友好。早期Meta还发布了一个更早的Llama模型,表现相当不错。

那么,哪家公司的LLM技术强?
13235606-2023-09-13T15:56:22.png

今天我找了一个Benchmark,是由MT完成的。他们认为目前整体上最好用的是GPT4。你甚至无需购买大量代码,只需在GPT4中进行编码即可。同时,你刚才提到的code interpreter,让它制作好Python后再转成其他语言,如Golang,整体效果也不错。

在Benchmark中,由于没有Cloud Two,我无法对其进行评价。但据说Cloud Two的v1和v2的表现还不错,大家可以尝试一下。

图片

此外,Llama Two 也可以进行二次开发,但在商用方面需要注意法律风险,因为训练过程中需确保内容是否得到所有者的同意。原则上,这些开源模型不能商用,但大家普遍在使用,风险较小。然而,对于大公司,如Facebook,他们需要承担更多的法律风险。

2.开发范式

第一,Lang Chain编程工具

Lang Chain,这是一种常用的编程工具,它能帮助我们更好地进行编程工作。我们可以使用它进行记忆,也可以用它拆分文档。

FinGPT是一种典型的使用Lang Chain的案例。它是一款开源金融模型,可以做很多事情,如股价预测、投资组合管理,甚至包括风险研究和金融新闻分析。FinGPT是使用Lang Chain调用的ChatGPT API,或者是GPT4.54或GPT3.5的API。在这个过程中,FinGPT不断理解和分析新闻。

Robo Advisor,这是一种智能投顾工具,可以通过分析新闻标题判断股票涨跌。这是一种非常智能化的投资工具。

ChatGPT Trading,这是一种使用ChatGPT进行交易的工具。它是在新的GPT框架下开发的,能在区块链交易中发挥出色作用。

这些都是典型的AI native产品,它们充分利用了Lang Chain这种编程工具,实现了智能化操作。

第二,ChatALL

Chatall的原始代码是开源的,但基于这些代码,开发者可以创建自己的APP。你可以在APP中添加捐赠功能,同时也提供一些付费功能。这就相当于你可以向ChatGPT提出各种问题,获取不同的API服务。

其中,最典型的应用场景是将文档上传,询问相关问题,例如:这个问题的答案是什么?通过调整温度,使得每个人的答案都不尽相同。这就是我们交作业的方式。

此外,还有一些专门针对特定领域的ChatALL版本,如chat Excel,由北大的一位同学开发,主要针对Excel文件进行问答。Pin chat则主要针对金融相关问题,阿发Science同样针对金融领域。而chat doc则会询问关于文档的问题。

另一个名为checklong doc的开源项目,主要功能是基于输入的网页内容来回答特定主题的问题。例如,我可以输入一段关于“word Coin”的网页内容,让程序解释这个词汇的含义,以及它与Open API的关系,应用名称等,以及它具有哪些功能。

此外,还有一个名为elicit的工具,专门用于研究相关领域。其工作原理是将大量文档进行分段处理,然后将这些段落存储到矢量数据库中,最后对这些矢量数据库进行解读。这就是它的底层逻辑。

第三,Agent人工智能助手

谈到人工智能助手,它被认为是踏上人工智能之路的关键。本质上,它通过各种工具和规划,一步步引导你完成任务。

以AutoGPT视频为例,助手会根据指定的方向,借助AI力量帮助你思考接下来该如何执行。

此外,还有一个典型的人工智能助手实例,即斯坦福大学和谷歌共同创建的AI虚拟小镇。
13235652-2023-09-13T15:57:08.png

这个小镇上生活着25个虚拟人物,他们在2月1日起床后,开始商量第二天的活动安排,例如邀请哪些人,如何组织等。AI虚拟小镇就是这些人工智能助手的工作内容。

3.应用模式演进

第一,Meta GPT

Meta GPT是一个非常有趣的项目,你可以了解到它是如何帮助你创建一个初创公司的。

假设你告诉 Meta GPT,你想要创建一个专注于开发 Blackjack 游戏的初创公司。Meta GPT 会为你进行产品分析、竞品分析,甚至编写代码。

此外,它还能为你的代码进行测试,并撰写相关文档。这一切都可以自动化完成,你只需告诉它你的需求。

虽然目前Meta GPT还无法生成图像,但随着技术的进步,未来它可能具备更多功能。总之,Meta GPT可以为你创建一个完整的初创公司,从文档到产品设计,再到代码编写,都可以由它来完成。

尽管目前Meta GPT的交互方式相对简单,类似于以前使用doc时的文字输入方式,但这也说明AI native的趋势正在逐渐发展。例如,Notion这样的工具将AI功能融入到文档编写中,帮助人们更高效地完成工作。

还有Zoom AI。

Zoom AI 是一个可以帮助你更好地整理会议材料的工具。这是 Zoom 添加的一项新功能,旨在提高用户的工作效率。通过使用Zoom AI,你可以轻松地将会议中的重要信息整理出来,以便于后续的回顾和处理。

三、多模态AI模型技术与典型应用场景

1.可控图片和视频生成
13235705-2023-09-13T15:57:21.png

多模态领域有许多有趣的应用,首先让我们来谈谈Lensa。

Lensa是去年上线的产品,收入非常高,每天的收入可达到400万美金。Lensa主要帮助用户制作精美的图片,虽然当时使用Stable的用户并不多,但Lensa迅速抓住市场,为用户制作了许多炫酷的图片。

接下来,让我们看看Flair Flyer。

这是一个可以帮助市场营销人员去除图片背景并添加新背景的工具,它采用AI来完成这些工作。用户只需提供一句话,Flair Flyer 就会根据这句话生成一张符合需求的图片。例如,用户可以说:我要一张手握Kindle的图片,背景是夜空。然后Flair Flyer就会生成这样一张图片。

再来介绍一下 Rendefusion。

这是一家帮助用户搭建AI环境的公司,它将stable分为开源,让用户更方便地使用。用户只需提供一张简单的线图,Rendefusion就会根据线图生成一张精美的图片。

在AI模型方面,APR是一个训练模型丰富的平台,尤其是它的小黄篇模型,训练内容主要是黄篇,因此生成的图片非常丰富。这是一个值得大家收藏的平台。

此外,还有C站和C lit两个平台。它们提供了大量AI模型,可以生成各种精美图片。这些图片由机器生成,与人工无关。用户可根据自己需求选择合适模型,然后生成相应图片。

最后,让我们来看一些基于AI的数字人应用。

图片

图片

图片

这些数字人应用主要为创业公司提供服务,帮助他们更好地选择模型。炼丹阁和黑站都是一个具有代表性的数字人应用,它们的CEO亲自讲解了产品,大家可以观看,这些都是AI生成的。

2.虚拟角色

Protoca是一个较老的产品,主要用于虚拟朋友和虚拟偶像的replica。而Para doc则是一个相对较新的产品,与Protoca的replica不同,它主要进行了更多的上下文处理。

当我们与AI进行聊天时,它会记住我们与它聊过的每一句话。而call ID则是我们可以与AI的MOS进行视频通讯的方式。如果大家有兴趣,可以去查看。

另外,In Word AI是一个AI native产品,它的目标是将游戏中的所有角色都制作成NPC,但目前真实网站上的功能较少。这意味着,它希望通过AI生成游戏中的素材,使每个人的游戏体验都独一无二。

以上就是这些创业公司在AI领域中的新应用,通过AI生成的游戏素材,使得每个人的游戏体验都是不同的。

3.3D场景和对象的生成或重建

YAHAA是一家致力于创建3D多人游戏的公司,让我们简单了解一下。紧接着是IN3D,这家公司专注于3D领域,他们的目标是创造许多虚拟角色,并在3D环境中实现实时互动。IN3D希望将现实生活中的人物转变为虚拟角色,当现实生活中的人物移动时,虚拟角色也会随之而动。

Roleverse和Rowords两家公司的目标相似,但侧重点略有不同。Roleverse和Rowords希望创建一个更加炫酷的3D虚拟世界,这个世界并非某个人的形象,而是一个完整的虚拟世界。用户可以创建物品,系统会自动生成一个背后的世界。

这里还涉及到一些跨模态的任务,如之前提到的虚拟角色、3D场景等。总的来说,这些公司主要以游戏和元宇宙为主导,致力于创造全新的虚拟世界。

4.跨文本、图像、视频等多模态语义的搜索或推理任务

刚刚提到的许多创业公司的项目,同时也有一些大公司在进行相关研究,例如微软的Hugging GPT项目。尽管这个项目尚处于初级阶段,但我强烈建议大家阅读它的论文和开源代码。

Hugging GPT由微软开发,主要功能是通过ChatGPT对输入指令进行分解,然后找到不同的AI模型将这些指令转化为现实。它已经连接了大约300多个AI模型。
13235800-2023-09-13T15:58:16.png

例如,你可以询问图片里有几只斑马。系统会给出准确答案,同时还会告诉你使用了哪些模型进行识别。

此外,Hugging GPT还打破了文字和图片的边界。例如,您可以输入一张女孩在读书的图片,系统会自动根据您的输入生成一张相应的图片。同时,您还可以为这张图片配上文字,形成一个完整的场景。

Hugging GPT的理念是专家模型+通用大语言模型。通用大语言模型主要用于理解、规划和选择工具,而具体的工具操作则由专家模型完成。在这个项目中,微软在Hugging Face上找到了一些特殊模型作为专家模型。整个过程完全由机器自动完成,充满了科技感。

关于AI的其他思考角度,我之前提到了Control Net,这是目前许多人期望的发展方向。他们希望AI能够无所不能,甚至取代人类完成一些复杂的任务。

我认为,我们可以从其他角度审视AI,例如将AI native产品按照文字、视频、code等不同形式进行分类,或者从行业特定、跨模态、通用型等角度进行区分。
13235816-2023-09-13T15:58:32.png

此外,我们还可以将AI模型按照应用场景进行分类,例如开发工具、AI产品、ToC和ToB等。这些模型在不同场景下具有不同特点,如产品ivity、陪伴性、游戏相关性等。

我记得有一句话来自一本书《个人主权》,说的是:“It's the best possible time of being alive, when almost everything you thought you knew is WRONG”它描述了AI领域的现状。当前,许多新事物不断涌现,许多我们今天认为正确的事物,明天可能就是错误的。然而,正是这种不断迭代更新的特点使AI领域充满了魅力。

原文:https://mp.weixin.qq.com/s/1cl46Rr6Ypy5QJ2AjYyEiw