LivePortrait：可控人像视频生成框架

作者: 快手

时间: 2024-07-24

阅读(805)

LivePortrait是快手推出的人像视频生成框架，由快手可灵大模型团队开源，只需1张原图就能生成动态视频。LivePortrait专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像，创造出富有表现力的视频。该技术通过隐式关键点框架实现，利用大规模高质量训练数据和混合训练策略，提升了模型的泛化能力和动作控制精度。LivePortrait在RTX 4090 GPU上的单帧生成速度极快，达到12.8毫秒，且具有进一步优化潜力。开源社区对其反响热烈，LivePortrait的GitHub页面提供了详细的使用指南和资源。

和当前主流基于扩散模型的方法不同，LivePortrait探索和扩展了基于隐式关键点的框架的潜力。不依赖于图像中明确可见的标记或特征点，而是通过学习数据集中的模式来隐式地推断出关键点的位置。在此基础上，LivePortrait通过两个阶段从头开始训练模型。第一阶段，LivePortrait对基于隐式点的框架（如Face Vid2vid），做了一系列改进。这些改进包括高质量数据整理、混合图像和视频训练、升级网络架构、可扩展运动变换、地标引导的隐式关键点优化以及级联损失项的应用等。有了这些，模型的泛化能力、表达能力和纹理质量都能进一步提升。再说第二阶段，通过贴合模块和重定向模块的训练，模型能够更精确地处理面部表情的细节。贴合模块通过跨身份动作训练增强泛化性，估计表情变化并优化关键点。眼部和嘴部重定向模块则分别处理眼部和嘴部的变形变化，通过独立的目标函数计算像素一致性和正则损失，提升模型在复杂表情处理上的灵活性和精确度。

主要功能

表情和姿态迁移：LivePortrait能够将驱动视频中的表情和姿态实时迁移到静态或动态人像上，生成具有丰富表情的视频。
高效率：该框架在RTX 4090 GPU上单帧生成速度可达12.8毫秒，展现出极高的处理速度。
泛化能力：通过视频-图片混合训练策略和大规模高质量训练数据，LivePortrait具备良好的泛化性，能够适应不同风格和身份的人像。
可控性：利用隐式关键点和轻量级MLP网络，LivePortrait增强了对动画生成过程的控制能力。
多风格支持：LivePortrait能够处理多种风格的人像，包括真人和风格化（如动漫）人像。
高分辨率动画生成：LivePortrait支持生成高分辨率的动画，提供更清晰的视觉效果。
贴合和重定向模块：设计了贴合模块和眼部、嘴部重定向模块，以适应裁切、多人合照等复杂场景，避免像素错位。

LivePortrait的项目地址

官网：https://liveportrait.github.io/
源码：https://github.com/KwaiVGI/LivePortrait
Demo：https://huggingface.co/spaces/KwaiVGI/LivePortrait
论文：https://arxiv.org/pdf/2407.03168

LivePortrait：可控人像视频生成框架

主要功能

LivePortrait的项目地址

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅