LivePortrait:可控人像视频生成框架
LivePortrait是快手推出的人像视频生成框架,由快手可灵大模型团队开源,只需1张原图就能生成动态视频。LivePortrait专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像,创造出富有表现力的视频。该技术通过隐式关键点框架实现,利用大规模高质量训练数据和混合训练策略,提升了模型的泛化能力和动作控制精度。LivePortrait在RTX 4090 GPU上的单帧生成速度极快,达到12.8毫秒,且具有进一步优化潜力。开源社区对其反响热烈,LivePortrait的GitHub页面提供了详细的使用指南和资源。
和当前主流基于扩散模型的方法不同,LivePortrait探索和扩展了基于隐式关键点的框架的潜力。不依赖于图像中明确可见的标记或特征点,而是通过学习数据集中的模式来隐式地推断出关键点的位置。在此基础上,LivePortrait通过两个阶段从头开始训练模型。第一阶段,LivePortrait对基于隐式点的框架(如Face Vid2vid),做了一系列改进。这些改进包括高质量数据整理、混合图像和视频训练、升级网络架构、可扩展运动变换、地标引导的隐式关键点优化以及级联损失项的应用等。有了这些,模型的泛化能力、表达能力和纹理质量都能进一步提升。再说第二阶段,通过贴合模块和重定向模块的训练,模型能够更精确地处理面部表情的细节。贴合模块通过跨身份动作训练增强泛化性,估计表情变化并优化关键点。眼部和嘴部重定向模块则分别处理眼部和嘴部的变形变化,通过独立的目标函数计算像素一致性和正则损失,提升模型在复杂表情处理上的灵活性和精确度。
主要功能
- 表情和姿态迁移:LivePortrait能够将驱动视频中的表情和姿态实时迁移到静态或动态人像上,生成具有丰富表情的视频。
- 高效率:该框架在RTX 4090 GPU上单帧生成速度可达12.8毫秒,展现出极高的处理速度。
- 泛化能力:通过视频-图片混合训练策略和大规模高质量训练数据,LivePortrait具备良好的泛化性,能够适应不同风格和身份的人像。
- 可控性:利用隐式关键点和轻量级MLP网络,LivePortrait增强了对动画生成过程的控制能力。
- 多风格支持:LivePortrait能够处理多种风格的人像,包括真人和风格化(如动漫)人像。
- 高分辨率动画生成:LivePortrait支持生成高分辨率的动画,提供更清晰的视觉效果。
- 贴合和重定向模块:设计了贴合模块和眼部、嘴部重定向模块,以适应裁切、多人合照等复杂场景,避免像素错位。