阿里发布AI图生视频模型EMO

作者: 钛媒体

时间: 2024-03-01

分类: 大语言模型

标签: None

阅读(596)

👍推荐(0)

阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片-音频-视频模型技术EMO，官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。

据悉，你只需要提供一张照片和一段任意音频文件，EMO即可生成会说话唱歌的 AI 视频，以及实现无缝对接的动态小视频，最长时间可达1分30秒左右。表情非常到位，任意语音、任意语速、任意图像都可以一一对应。

比如，《狂飙》电视剧中“高启强”畅谈罗翔普法；蔡徐坤的一张图片，就能通过其他音频配合“唱出”一首rapper饶舌，连口型都几乎一模一样；甚至前不久OpenAI发布的Sora案例视频里面，一位 AI 生成的带墨镜的日本街头女主角，现在不仅能让她开口说话，而且还能唱出好听的歌曲。

B站鬼畜视频即将会被 AI 所取代。

阿里研究团队表示，EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频，同时，其可以根据输入视频的长度生成任意持续时间的视频。

同时，EMO还拥有音频驱动的人像视频生成，表情丰富的动态渲染，多种头部转向姿势支持、增加视频的动态性和真实感，支持多种语言和肖像风格，快速节奏同步，跨演员表现转换等多个特点与功能。

技术层面，阿里研究人员分享称，EMO框架使用 Audio2Video 扩散模型，生成富有表现力的人像视频。

该技术主要包括三个阶段：一是帧编码的初始阶段，ReferenceNet 用于从参考图像和运动帧中提取特征；二是在扩散过程阶段，预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成；三是使用主干网络来促进去噪操作。在主干网络中，应用了两种形式——参考注意力和音频注意力机制，这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外，EMO的时间模块用于操纵时间维度，并调整运动速度。

目前，EMO框架上线到GitHub中，相关论文也在arxiv上公开。

GitHub：https://github.com/HumanAIGC/EMO
论文：https://arxiv.org/abs/2402.17485

阿里发布AI图生视频模型EMO

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅