Dify.AI 创始人兼CEO 张路宇
上海人工智能技术协会 首席咨询顾问 尹智
26193733-2024-03-26T11:37:34.png
尹智:大家都说2024年是AI应用的落地之年,那请问从IT设施软硬件的角度看,您觉得应用落地的问题或者瓶颈有哪些?

张路宇:Dify是一个服务式的、开源的开发中间件,旨在帮助企业和开发者快速将大模型应用落地,并解决其中的技术挑战,涵盖数据处理、运营等相关问题。在过去的一年中,我们有幸接触到许多应用开发者。我们发现,不论是规模大小,只要开发者需要使用大模型,他们都在尝试将这项技术应用到自己的项目中。

因此,我经常询问这些开发者一个核心问题:你是谁?为什么我会问这个问题呢?因为一个人的身份决定了他在使用大模型时的应用场景和可能遇到的问题。我们总结发现,应用开发中的问题很大程度上取决于开发者的身份。

在我们的分析中发现,基于大模型的应用,模型只是其中的一部分。大模型可能仅占应用过程的一小部分,不超过50%,剩余的50%取决于应用的基因、原始客群和积累的资源。最常见的应用类型是基于流程的,通过大模型加上某种编排和原有逻辑代码形成应用。此外,一些公司的核心在于交互,而另一些公司则侧重于数据。因此,开发者面临的问题往往与他们自身的身份有关。

在选择如何使用大模型时,关键是确定自己的情景。如果你是SaaS公司,需要结合大模型的能力来服务你的用户,那么问题相对简单,因为你的用户需求是明确的。但如果你是在不确定情境下试图利用大模型进行尝试,而没有充分理解模型的技术特性,那么可能会遇到问题。

尹智:2024年,你觉得业界对AI应用的开发和集成的框架,会有什么样的需求?

张路宇:在过去的半年里,开发者们经历了一段自我认知和成长的过程。最初,大家主要是利用一些大型模型、OpenAI的API或者官方提供的SDK,或者借助像LangChain这样的平台来组装一些东西。这个阶段的认知比较零散,主要目标是做一些概念验证,将各种组件拼凑在一起即可。

而现在,我们已经看到了许多关于开发平台和开发框架的范式已经被逐渐确立。不论是我们自己的产品还是业界其他产品,发展的重点主要集中在几个关键零部件上。

首先是获取大型模型和外围组件(如向量数据库)后,需要面对的一个关键问题是如何处理RAG(Retrieval-Augmented Generation)的问题。RAG本身涉及到数据的管线,包括索引清洗、数据清洗和查询过程,这与之前的数据中台有一定的关系。

另一个关键零部件是应用本身的编排。

这意味着将逻辑代码与各种提示(prompt)以及不同规模的大、中、小型模型(无论是商业还是非商业的,基于成本或效果考虑)组装起来,形成一个多模态的应用。这两个部分实际上有点像之前的数据中台。而应用编排部分则类似于之前的RPA(Robotic Process Automation),这是我们目前看到的一个相对清晰的范式。

尹智:很多企业今年要开始考虑开始落地应用了,考虑自己开发或者是跟大家一块共同开发,你觉得AI开发平台,也包括Dify对用户会有哪方面的价值?

张路宇:大家可能都已经接触过像是OpenAI发布的GPT-3、System API等产品。事实上,我们在这方面的探索比OpenAI早了大约半年。我们清楚地认识到其中所蕴含的短期、中期和长期的价值。

在早期阶段,最明显的价值在于简单快捷。我们可以以较低的成本和更快的速度实现接近POC质量的应用。这对于原型构建过程至关重要。

其次,潜在的价值在于认知过程。在适应新的大型模型趋势的背景下,传统的软件开发团队需要学习许多新技能和理念。例如,我们所提的prompt-first方法,以及在调优和认知过程中习得的技能,对于这个过程至关重要。

中期价值在于开发框架为团队带来的工程便利。比如,如何处理复杂的管线、各种数据源以及多种模型集成的工程组装和性能优化问题。

长期价值则涉及到数据积累沉淀的问题。因为没有一个AI应用是静止不变的,一旦应用上线,就需要进行数据收集、标注和反馈回来不断改进prompt和工程模型。

尹智:我稍微回应一下,我曾经在AI 四小龙其中一家工作过,当时我也参与了一个类似的项目,我们推出了一个全面的AI开发框架,涵盖了从底层算力适配到中间训练和推理框架再到数据管理工具和上层应用的工具集。那时候,大约两三年前,RAG和agent等概念还未出现。当时我们面临的挑战主要集中在工程层面,包括如何导入和管理数据、流程自动化等。这些问题已经非常复杂了。

今天,我同样觉得虽然新的工具可能简化了一些流程,但同时也会带来更多复杂的问题需要解决。

另外,当下很多厂商都推出了一个服务“MaaS:model as a service”。有一些企业可能技术能力会相对高一点,想要自己训练自己的模型,Dify会不会也会推出这样的类似的服务?

张路宇:“Model as a Service”主要涉及将模型的推理和训练云端化。我们自己并不从事这方面的工作,因为我们专注于解决人们获得模型后的问题。整个大模型的开发生态产业链非常庞大,从算力到后续的工作,都需要考虑。模型获得前和后都有各自的挑战和任务,而我们选择专注于后者。

然而,我们注意到许多云厂商在算力和调度方面拥有丰富的经验,非常适合提供Model as a Service服务。我们专注于自己擅长的领域,而云厂商或模型厂商则更适合承担Model as a Service的任务。

尹智:我个人认为,Model as a Service 在某个阶段可能具有一定的意义。然而,最终选择模型时,可能会收敛到两三个操作系统级别的选择。就像到目前为止,我们开发移动应用程序时主要基于 iOS 或 Android,而不太会去选择其他操作系统一样。

接下来,谈谈理想情况下的情景,或者大家期望的情况。我们可以设想一个理想的开发框架,它是一个一站式解决方案,用户可以在其中进行数据导入、管理、训练,连接各种API,并最终将其集成并部署。我们可以将其视为一个统一的开发框架。

如果真的有这样的框架,或者说实现了这样的愿景,它将如何帮助企业完成工作?有这样的框架,哪些企业和个人可以开发自己的应用?他们还需要什么样的能力?

张路宇:在当前模型技术的基础上,我们的愿景相当宏大。我们希望让每个人都能轻松地定义和使用人工智能。这是一个相当通俗易懂的愿景,大家可能都能理解。换句话说,你是否是开发者或者专业人士将不再那么重要。我们不再将用户定义为专业开发者或非专业开发者。

我们可以看到像GPTs等平台的出现,已经将AI应用的门槛降低到了尽可能低的程度。你可以尝试开发一些小型应用或实验项目,但要实现一个专业产品或盈利项目,则需要更高水平的技能。因为这涉及到与你原有产品的集成、用户理解和交互等方面的能力。因此,未来可能会有一种趋势,即大型模型被用来开发一些小型应用,就像你现在使用Excel编写公式一样简单。但如果你想要开发产品,那么你的专业能力和背景可能会有一些要求,还是要具体情况具体分析。

尹智:你觉得未来的AI应用开发平台是什么样的发展趋势?

张路宇:按照流量或用户群的划分,这个领域确实有一定的分化。首先是针对消费者(To C)的一类应用,类似于目前流行的公众号、小程序等。这类应用可能由一些大型流量入口的厂商提供,或者由顶尖的模型供应商(如OpenAI)占据标准平台地位。

另一类是企业级应用,在企业级领域,由于涉及到私域数据和数据安全的要求,因此有不同的特点。例如,用于企业内部数据和工具API的agent平台就是一个典型例子。在这个领域,首先会有不同的分化。同时,这些平台也会根据模型的大小来区分。小型模型可能适用于移动设备上的开发框架,类似于现在前端开发中常见的情况。而大型模型可能更适用于企业内部的数据中台,提供类似AI开发平台的解决方案。

尹智:你觉得在开发平台或者开发集成这个领域,未来是大厂的优势会更高,还是初创企业的灵活性更重要?

张路宇:初创企业的优势在于速度快、市场敏感度高以及充满年轻活力等。例如,我们去年6月推出产品后,现在在GitHub上已经获得了超过16,000个star,国内大部分开发者都知道我们的创新速度。与此同时,我们从那个时间点开始就注意到,包括BAT在内的大公司,以及一些模型厂商等,开始复制我们的产品或类似的产品。然而,不同公司的视角是不同的,特别是在所谓的“屁股问题”上。举个例子,如果你是一个大型模型厂商,你做平台时可能更注重满足自家模型的需求和标准。而如果你是云厂商,你最终关注的是算力的销售和利用。每个公司都有自己的视角和关注点。

初创公司的优势在于更加敏感。我们以服务开发者为目标,专注于如何更好地满足他们的需求,让他们的应用顺利上线。因此,不同公司在这个阶段可能有不同的视角,这也会导致各自在能力上的差异。

尹智:大型企业拥有自身的先天优势和资源,因此它们在选择技术路线时更具灵活性。尤其对于大型模型而言,基础设施方面的挑战是一个较大的问题。算法必须最终适配到国产硬件上运行。因此,重点不仅在于优化算法本身,还在于确保算法能够在自家的硬件平台上运行。举例来说,像华为这样的企业拥有自己的硬件体系,因此可以将其算法优化并运行在自家的硬件平台上。我认为这种趋势将会持续较长时间。

你认为2024年到底是ToC的应用会更火,还是说ToB的应用会壮大起来?

张路宇:To C的应用符合一种涌现式发展的规律。它们几乎无法被预测,而是依赖于创意、交互平台的能力以及极具天赋的团队,这些因素共同涌现而来。这种应用很难通过标准化的SOP设计,要么就是没有被发现,要么就是突然之间火爆起来。具备开发这类应用能力的人通常是那些从事应用开发的人。我认为,人本身并没有改变。尽管大型模型的出现可能吸引了更多的人,但与之前从事应用开发的人相比,数量可能并没有显著增加,可能只是有限的预见。

与此不同,B端的情况有所不同。由于每家企业内在的经营属性和需求各不相同,因此同一类型的应用可能会在成千上万家企业中被复制成千上万次。尽管这些应用在数量上占据绝对优势,但在品类上可能并不是非常多。因此,我认为这两种模式有着不同的特点。