多模态 AI 无疑是今年大模型的发展重点之一,Sora、Midjourney、Suno 等文生视频、文生图、文生音乐赛道的代表产品也是用户的关注热点。
多模态 AI 如何落地,数字人、直播、语音产品上有什么新的想象力?还是要去探索更多的新场景?

嘉宾简介:

大雷:产品经理,WaytoAGI 社群活跃份子 
阿 B:大厂 X 的多模态算法研究员 
阿 Q:大厂 Y 的多模态算法研究员 骆思勉:LCM、LCM-Lora 作者,创业中 
张月光:妙鸭相机产品负责人,创业中

01 仰望星空:产品人的 AI 观点

1.1 在使用市面上主流的 AI 图像/视频生成的产品时,用户主要关注什么?

大雷:市面上各个视频产品的生成效果差异并不是很大,用户在实际使用的时候更多会关注可控性和成本这两个方面。专业用户主要使用 SD WebUI/ComfyUI 工作流,小白用户通常在图片上用 MidJourney,在视频上用 Runway、Dreamina、Pixverse、Pika 等闭源工具。观察下来,Dreamina 对语义的理解能力较为领先,用户写完提示词只需要重新生成两三次,30-50% 的概率就能得到自己想要的片段,尤其是在跳舞、旋转等大幅动作的时候适用;Runway 的控制笔刷能够配合提示词来约束生成效果,主要是在平缓镜头上用得很多。大家肯定是想做让自己可以赚钱的东西,但因为没有人消费这些内容,所以现在创作视频主要还是自我满足,更多像一个艺术品,而不是一个商品。使用闭源工具的小白需要花钱买 credits,所以比使用 SD 的人更关注成本,这些用户在订阅一些高质量的付费产品的同时,也会寻找可平替的免费视频制作工具,或者利用每日积分来节省成本。

1.2 AI图像/视频生成产品的运营玩法和推广策略有什么特点?

大雷:与图像生成/视频生成产品的官方社群相比,其实是 AI KOL 自己组织的民间社群更活跃,既会给主题引导,也不限定必须使用什么产品,用户更乐意经常分享和讨论。例如野神殿和 WaytoAGI 主办了「世界生成式 AI 视频挑战」,灵感来源于 3D 建模爱好者的世界渲染大赛,现在是给出 Stable Diffusion 里的深度图,让 AI 爱好者在确定的主题下根据固定构图或其他限制条件进行视频创作,每周一期新创意,历史主题包括巨大三角、漂浮、眼睛、蛋、邂逅等,吸引了不少人参与,作品会展出在小红书、视频号等平台上。北影、猫眼、央视等最近也开始举办各种 AI 创作比赛/艺术节,扶持一些高水平的用户,也能激励大家先忽略金钱上的直接回报,着眼于在新领域里建立一定的影响力。

用户在没有命题的情况下很容易陷入不知道能用 AI 来做什么的迷茫,但是只要给出一个大致的指引范围,就能更好地利用图像产品和视频产品来创作内容,尤其是看到身边的朋友或是社群里的群友能做出来很炫酷的东西时会更有动力尝试,在社群里大家卷起来。参加 Video Battle 的人越来越多以后,已经开始有一些品牌来联系社群主理人进行合作。例如某品牌想植入一款新的球鞋,就会让大家在球鞋的基础上共创一些短视频,不需要像电影节比赛那么长,哪怕就是一段段 4 秒的视频,也能从中筛选出很多脑洞打开、让人眼前一亮的内容。

1.3 给多模态 AI 找场景,「有趣」还是「有用」?

阿 Q:现在 AI 生成图/视频还是中间形态,依赖于下游的应用来承载更丰富的意义,目前还没看到新平台的雏形,更多还是大 V 发到现有的社交媒体上,普通用户还停留在自己看,甚至不会对外发的阶段。刚开始看到 GPT-4V 的时候去尝试了很多 case,比如能理解一个菜谱,给一些有意思的输出,但回过头来看确实没带来什么实际的价值。内部有时候在调侃,GPT-4V 的 API 到底卖给谁了,大多数可能都卖给那些要搞类似 paper 的人拿来造数据。

阿 B:AI 生图,现在核心就是两个点:一是推理成本如何降下来?二是即使成本低、效果好,如何落地才能提高用户留存,不仅仅是体验 1-2 次就走了,而是能成为持续的需求?

内部有三个 drop 了的 case:
1)效果过得去但推理成本很高,会导致整体落地性差。输入一张图片,根据一个 pose,生成对应的跳这段舞的视频。从效果上来说是比较真实的,因为其实只需要对那一段舞蹈去做特殊的处理,但投稿率很低很低,原因在于要体验一次需要大概 7 分钟左右才能生成,这就导致了这个技术虽然肉眼看上去基本没有瑕疵,但是使用的人非常少,然后会导致整个 ROI 打不平。
2)推理成本很低但本身能力差,用户留存会非常差。输入一张图片,生成证件照、在各种场合的图片等。主要的问题在于保 ID 能力,因为人类对于人脸非常敏感,所以只要脸跟自己有一点点不像,就会弃用。
3)推理成本很低且保 ID 能力好,但普通用户没有强需求,也不成立。即使基于动作库检索的方式去做跳舞卡点视频,用户在一瞬间的兴奋过后,也很难想到要在日常生活中再体验第二次,市面上各种娱乐向的东西实在太多了。

骆思勉:我们总体上对视频领域的实时生成比较关注,因为一旦能够达到实时的生成速度,很多场景能够解锁,用户与生成模型之间可以有一些 real time 的 feedback。我们目前也是在这个方向上探索,比如一些与实时视频的实时互动。

乔木:图像和视频不是为了做而做,而是把这个东西作为一种手段去赋能真正想要的场景。教育+ AI 有 PMF,多邻国解决的核心问题是「上瘾」,能够用各种方式让用户不断回来用产品,再产生更多的付费。现在有很多教育公司其实是把图像和视频生成以及跟用户交互的娱乐功能作为上瘾的卖点,避免过于生硬的知识点灌输。例如,根据你的问题实时地生成数理的各种图像然后去做课程讲解,调用的是一些传统的工具,不强行依赖生成式 AI。AI 搜索里用户留存率比较高的产品,也往往是除了文字的输出之外,还会带有思维导图、图像/表格等形式,对用户体验有非常大的提升。

张月光:绝大部分生产力的需求都会被 AI 加持,只要加持后产生的额外经济价值减去需要的额外成本之间的差值是正的,那么模式就是可行的。如果你能帮我挣 100 块钱,我肯定愿意付 50 块钱,「有用」的范围很杂也很大。

1.4 IP 数字分身,AI 版的 Onlyfans,到底能不能 work?

乔木:AI 版的 Onlyfans 是目前看到的相对最现实的场景,虚拟分身有不同的定价可以让用户聊天、打电话,相当于是定向割韭菜的商业模式。整体可以分为三档:第一档是乐华娱乐做数字王一博,靠 IP 知名度和资本运作;第二档是有一定流量的网红和网黄,吸引对应的粉丝,有创业公司在做;第三档是虚拟女仆,提供订闹钟、做生活提醒等功能,是人类的共同需求。但在用户愿意买单的产品价值里,有多少依赖于 IP 本身,有多少依赖于 AI 技术和效果,很难讲。

张月光:网黄的赛道相对比较稳定,可以赚点小钱,但是很难做得很大。除了这种需求以外,剩下的数字分身的应用,其实都是非常难的。IP 是相当成熟的商业模式,造 IP 本质上都是造价值观,后续的动作就是再围绕价值观去创造一些作品来让你相信这个价值观。IP 和消费品一样,有品牌的大小之分。
顶流型 IP:如果你去造奢侈品,就需要一定程度上减小跟用户的沟通频次,就像 LV 通常不会出现在电商直播里一样,天王偶像更多是藏在后面去提供成熟的作品表达,一旦经常跑出来刷存在感,会破坏神秘感和掉价。在这种情况下,增加一个随时可以沟通的数字分身,其实对一个 IP 来说是负向效果,很难持续收割下去。
中腰部 IP:现在整体在下滑,以 Coach 为代表的二三线奢侈品就活得很难。因为 IP/消费品呈现的是两极分化的状态,要么就造超级头部奢侈品,要么就造超级快消,比如偶像练习生或者批发的快进快出的网红。
快消型 IP:Zara 和 AKB48 需要频繁出现在用户的视线里,树立亲民的形象,但难点就在于需要让用户感受到真诚的高频沟通。因为快消的本质是「你要尊重我,我才会买你」,本来你也不是什么高端货,要是不尊重我了,我马上就把你扔掉。而这就是 AI 比较 bug 的地方,很难做到比较好的 TPF,首先不能骗用户,要表明这就是个 AI,其次是让用户觉得虽然用了 AI,但用心到自己愿意买单,其中涉及到的心理很难拿捏得好,但可能会有一些空间。

所以 idol 数字分身这个赛道,并不是手握 IP 的公司就做得了,创业公司就做不了;最核心的能力是寻找到既能让中小 IP 高速流转又能让受众感到被尊重的解决方案。

1.5 如何在初期想法阶段去评估一个 AI 产品的可做性与潜在价值?
张月光:第一,不管是 B 端产品还是 C 端产品,在看技术方向的时候,需要找到相对来说基准线就比较高的地方,市面上已经有了很多 80 分的模型。做学术的时候,你要去发现模型在哪些 domain、哪些 dataset 上 表现特别差,试图找到方法把 20 分提高到 50 分就非常厉害了;但实际上做 C 端产品的时候,一直都不太关注 cutting edge 的那个部分,而是找技术当中相对最稳定的部分,会希望现在所有的模型拿出来能完成的事情都在 80 分以上。

第二,尽可能做精确的 single domain,并且选择其中商业价值最大的部分。大家对人脸、对真人写真方向这么痴迷,也是基于商业考虑。当市面上已经有很多领先产品的时候,做新东西需要先找垂直领域,而图像里面占比最高、商业价值最大的肯定是人的照片。再到对于模型的定义,市面上有一堆 80 分的模型,那在这个领域里,理想情况下模型的表现效果应该是什么样,做了一些定义之后再去找相应的 dataset,就开始训模型。

第三,把 80 分的东西优化到 100 分再交付给用户,做到真正的 problem solve 的状态,超出预期才会带来口碑。对于 C 端用户而言 SOTA 没有任何意义,人的真实心理是「只要没有达到 100 分对我而言都是 0 分」。用户愿意去使用这个产品,无非就是那种「哇哦」的感觉,这就是口碑,口碑就是「超出预期」。人脸写真,只有当 AI 生成的效果达到媲美海马体的效果,那一瞬间才是超越了用户的预期。所以最近确实没看到什么觉得有意思的产品,相对值得关注的 work 就是微软 VASA-1,比之前的阿里 EMO 效果更好、瑕疵更少,比较接近于 100 分。

1.6 在大厂和在创业公司做 AI 产品,选择方向的思路会有什么不同?

张月光:如果在大厂里做主流产品,本身势能很强,那么沿着原来的产品进行演化一定是更自然的。不要老是想着破坏式创新,破坏式大部分时候不是创新,破坏式就是破坏了,破坏完了也没有创新出来。如果在大厂内部创业,手里没有一个健壮的、势能很强的产品,那就需要寻求全新的变化。资源非常受限并且现状在短期之内很难发生实质性变化的话,肯定是以条件为优先,有多少米做多少饭。如果是你自己创业的话,建议先不要考虑你有多少资源,还是先考虑你的 mission,想得更长远。只要你对于一件事的认知足够深,并且 mission 足够清晰的话,资源总会有的,这个世界上从来不缺钱,也从来不缺人。创业公司唯一的机会就在于差异化认知,然后在认知差异之上找到一个非常聚焦的点,形成局部的资源优势。

02 落地猛干:从业者的前进之路

2.1 用户反馈数据(点赞/打分/四选一等)真的被用到给模型做强化学习了吗?

阿 Q:在文生图上,我们其实没有直接用到用户数据,无法在没有从外面得来新信息的情况下,用自己的模型生成的图片来优化自己的模型。一般的做法是,对于文本和图有额外辅助的质量分数,例如 1-5 分,5 表示质量最好,1 表示质量很不好。在用户场景下,区分度是个问题,碰到手指异常、图像残缺等明显的 bad case,可以学出来好或不好,尽量避免;但在人的主观审美上很难打分,不同用户的标准不一致反过来还会给模型带来新的困惑,很难从 4 分学到 5 分。一段很长的 prompt 生成的一张复杂的构图,元素可能包括这个人长什么样、地上有没有花、是什么品种的花、背景色彩有多明亮等等,都可能影响主观判断,prompt 和图上的所有信息并不是一对一、点对点的。所以说,只有在明显的缺陷上,用户行为反馈是有价值的,但是想进一步提升的话非常难,还是要靠有足够审美的专家去搞一些精标注数据对模型去做 SFT 可能帮助会更大。MidJourney 让用户四选一,假设收集到了足够多的数据,确实会有一定的对于美的方向的指引,最简单直接的方法就是在做下一次模型迭代的时候设计一些规则,把那些经常被叉掉的数据给干掉。

阿 B:主要出于合规考虑,我们只会看 bad case,但用户数据无论是输入的内容还是点选的操作,都不会参与到模型训练,这条链路还没有打通。

2.2 图像/视频生成的实时性意味着什么?现在走到什么阶段了?

阿 Q:图像模型的优化方向是通过更少的迭代步数实现更快地出图,在效益上的直观反映在于用户等待的时间更短,更重要其实是可以节省背后的算力资源,提供服务的成本足够便宜才能看到赚钱的希望。AI 生图现阶段对实时性的要求暂时可能够用了,一个几十亿参数的模型,在十步之内大概可以做到几乎一秒出图。视频模型的推理加速分两个维度,一个是如果用 Diffusion 这种技术方案,就是步数要少;另一个是模型本身的容量不能特别大,假设有一个 100 亿参数的视频模型,即使一步出图,想让它一秒出十几帧且是连续的,依然是不可能做到的。在这种背景下,提高生成的实时性大概率还是要对模型本身的结构设计做轻量化,再加上 Diffusion 推理的步数少,结合在一起作为一个系统的优化过程。另外,目前在视频场景还存在一个问题,有所谓「时间窗口」的概念,因为不管再大的视频,还是切成一段一段的,连着只能抽出几十帧然后塞到模型里再一起去推理,实际上是相对有点割裂的,并不是那头一边喂这头一边推。模型推理加速从分段的顺序执行变成流水线形式也是一个趋势。

2.3 在图像/视频生成的领域,学术界和工业界正在往哪些方向探索?

骆思勉:个人对于 RLHF 用在图像质量的提高上比较关注。也在研究有没有更好的生成框架,扩散模型被提出来才几年时间,会很感兴趣下一代模型长什么样子。

阿 B:尽量降低推理成本。有一些新特效上线的时候,因为用户基数比较大,卡的分配限制会导致推理用的算力挤占了日常训练任务所需要的资源。目前在从工程端和算法端都在尝试解决这个问题。让人脸 AIGC 的效果实现又像又美,在产品端的体现是利用单图驱动的技术让虚拟人说话,但实际上用户很少点开,或者点开没多久就走了,只是额外增添了一点趣味性,对核心功能的帮助不大,可是又有比较高的 GPU 消耗,所以也在研究如何将这些算力转移到用户的端侧设备。个人关注的研究方向:1)scaling 在视频领域能不能做出来,怎么科学地把参数量和数量堆上去;2)视频如何做可控编辑,提高人与模型之间的交互性,而不是让模型生成一段视频之后,如果不满意的话只能重新调整 prompt 来重新生成一段新视频,代价会非常大。

阿 Q:现在主要负责图像模型的基础能力,期望就是能够做到「通用」。

首先定义「通用」,一方面是解决生成文字、生成海报、亚洲人脸等垂直场景的 case,一方面是考虑在普通用户眼里的美和在有专业审美的设计师眼里的美的定义是不一致的,会有复杂的评估机制。

其次在数据的收集和处理上尽可能做到「通用」。目前在 Diffusion 领域,算法、模型结构其实都大差不差,最重要的就是数据质量,几万张很高质量的图就可以给模型效果带来非常显著的提升。市场上对 MidJourney 的美学有普遍认可,大多数公司还是以它为目标,去爬它的图,对它的模型做蒸馏。对模型本身的设计优化也还有很大空间,训更大参数量的模型,理论上效果也会有明显提升。但最近在考虑的事是否值得把很大的算力投入进去,因为具体下游场景的需求并不依赖非常强的模型,还是会考虑性价比。总体来讲,对于模型到底能够在什么场景里会被用上是有一些困惑的。指令编辑是学术上更面向应用的点,也是很有价值的。现在有一些其实是伪编辑,只是在原 prompt 上把要编辑的东西加进去重新搞张图,或者用 inpaint 的方式需要先在原图上做框选。目前很多人在尝试通过自然语言交流的方式直接修改图像内容,首先要明确到底改哪里,然后是改成想要的样子,更重要的是最好不要对其他区域带来变化,这会极大提升专业绘画者的工作效率。

2.4 图像/视频的生成质量的判断标准是什么?如何确定模型的提升方向?

张月光:第一个问题是怎么定义「好」的模型?这其实就是 pm 应该做的工作,要由人先描述清楚需求,才能让模型做出想要的东西。如果 pm 都不能提出明确的要求,那就很难去评估,你应该让他回去想好了再过来。比如说,我在做妙鸭的模型的时候,提出三个要求就是「真、像、美」,其中「真」就是去 AI 感,搞 dataset 的时候,不能找光影、色彩太极致的模特图、精修图,反而应该找一堆普通人的图,「像」需要人脸泛化性强,尽量用最少的 shot 来实现,那就意味着 dataset 有尽可能多的人脸等等。

第二个问题是,提了这些要求以后,怎么去评估这个模型?图像类和视频类的模型要做常规的机械化的评测是非常非常难的,我们其实完全不看分,就是把结果跑出来,再找一个审美比较好的人,或者说符合产品定义的审美的人,他喜欢就是喜欢,不喜欢就接着改,就这么简单。

多模态的 alignment 其实比文字简单多了。LLM 属于数据相对好搞,蒸馏也更容易,可以快速逼近 80 分 90 分的效果,但是 100 分到底是什么甚至都很难定义,最简单的写文章摘要的需求,几乎是大模型最擅长的事了,仍然是一个定义模糊的问题。但在图像领域,例如妙鸭相机其实是一个 problem solve 级别的问题,人就长这样,不管是用 SD 3 还是 SD 100,人也还是长这样,几乎是肉眼一眼看过去就可以判断效果达不达标。

2.5 搞 AI 的产品经理和算法同学在工作中需要注意些啥?

张月光:对于产品经理:如果是从 0 到 1 创造一个全新的东西,确实需要产品、技术、商业这三个角同时具备;但如果是沿着相对明确的思路去解决某个具体问题,其实和传统的产品经理没有太本质的区别,不是每个人都要把这三角全都掌握。有的 pm 偏重于用户体验,可能对技术不那么了解,但能够把有效的模型在需要的 domain 里最终交付得非常好,也很有价值;有的 pm 非常了解模型本身,跟模型的同学一起定义好模型表现的评估方法,去找合适的测试集和训练集来做模型迭代的工作,即使对用户、对商业没那么了解,也是很好的产品经理。至于看 paper,知道最近有什么 work,跟住大趋势,几张关键的图拿过来,大概知道它是在哪个层搞点什么事儿,用这个方式可以把描述的问题解到什么程度,你能有这个判断,差不多就够用了。

对于算法:如果兴趣在于参与做一个大众喜闻乐见的产品,需要明白面临的并不是一个纯粹的模型问题。首先,它是个模型;其次,它是个工程化得比较好的模型,不是 demo 级而是工业级的东西;再次,它不仅是一个单独的模型,可能要和别的系统放在一起去看,就好比上一代做推荐算法,也是模型加系统。找到靠谱的合作者也很重要,尽量避免一天接 10 个需求/今天做这个明天做那个/需求都还描述不明白的团队。在几个月里专注于一个非常明确的 domain,反复想办法找数据、找层、调超参,目标就是把这玩意给解出来,会比较容易拿到结果。如果是纯 research 驱动,不要非得去想用户需求,还是要从自己的兴趣,从研究本身出发,先别管有没有人用得上,你做出来说不定就有人能用得上。