腾讯旗下的天琴实验室刚刚开源了AI数字人MuseV项目,项目全称是:基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成(MuseV: Infinite-length and High Fidelity Virtual Human Video Generation with Visual Conditioned Parallel Denoising)。MuseV和其稍后发布的MuseTalk视频唇形同步是一套完整的AI数字人解决方案。随着这两个项目的开源我们可以免费制作不限时长的AI数字人了。

项目特点

MuseV 是基于扩散模型的虚拟人视频生成框架,具有以下特点:

  • 支持使用新颖的视觉条件并行去噪方案进行无限长度生成,不会再有误差累计的问题,尤其适用于固定相机位的场景。
  • 提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。
  • 支持图像到视频、文本到图像到视频、视频到视频的生成。
  • 兼容 Stable Diffusion 文图生成生态系统,包括 base_model、lora、controlnet 等。
  • 支持多参考图像技术,包括 IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。

模型结构示意图

19193149-2024-05-19T11:32:19.png

Demo

地址:
https://github.com/TMElyralab/MuseTalk
https://github.com/TMElyralab/MuseV