LivePortrait是快手推出的人像视频生成框架,由快手可灵大模型团队开源,只需1张原图就能生成动态视频。LivePortrait专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像,创造出富有表现力的视频。该技术通过隐式关键点框架实现,利用大规模高质量训练数据和混合训练策略,提升了模型的泛化能力和动作控制精度。LivePortrait在RTX 4090 GPU上的单帧生成速度极快,达到12.8毫秒,且具有进一步优化潜力。开源社区对其反响热烈,LivePortrait的GitHub页面提供了详细的使用指南和资源。
24180819-6402.gif

和当前主流基于扩散模型的方法不同,LivePortrait探索和扩展了基于隐式关键点的框架的潜力。不依赖于图像中明确可见的标记或特征点,而是通过学习数据集中的模式来隐式地推断出关键点的位置。在此基础上,LivePortrait通过两个阶段从头开始训练模型。第一阶段,LivePortrait对基于隐式点的框架(如Face Vid2vid),做了一系列改进。这些改进包括高质量数据整理、混合图像和视频训练、升级网络架构、可扩展运动变换、地标引导的隐式关键点优化以及级联损失项的应用等。有了这些,模型的泛化能力、表达能力和纹理质量都能进一步提升。再说第二阶段,通过贴合模块和重定向模块的训练,模型能够更精确地处理面部表情的细节。贴合模块通过跨身份动作训练增强泛化性,估计表情变化并优化关键点。眼部和嘴部重定向模块则分别处理眼部和嘴部的变形变化,通过独立的目标函数计算像素一致性和正则损失,提升模型在复杂表情处理上的灵活性和精确度。
24180354-640.gif

主要功能

  • 表情和姿态迁移:LivePortrait能够将驱动视频中的表情和姿态实时迁移到静态或动态人像上,生成具有丰富表情的视频。
  • 高效率:该框架在RTX 4090 GPU上单帧生成速度可达12.8毫秒,展现出极高的处理速度。
  • 泛化能力:通过视频-图片混合训练策略和大规模高质量训练数据,LivePortrait具备良好的泛化性,能够适应不同风格和身份的人像。
  • 可控性:利用隐式关键点和轻量级MLP网络,LivePortrait增强了对动画生成过程的控制能力。
  • 多风格支持:LivePortrait能够处理多种风格的人像,包括真人和风格化(如动漫)人像。
  • 高分辨率动画生成:LivePortrait支持生成高分辨率的动画,提供更清晰的视觉效果。
  • 贴合和重定向模块:设计了贴合模块和眼部、嘴部重定向模块,以适应裁切、多人合照等复杂场景,避免像素错位。

LivePortrait的项目地址

  • 官网:https://liveportrait.github.io/
  • 源码:https://github.com/KwaiVGI/LivePortrait
  • Demo:https://huggingface.co/spaces/KwaiVGI/LivePortrait
  • 论文:https://arxiv.org/pdf/2407.03168