总的来看,EMO框架实现了面部表情、头部姿势的丰富性和自然性,虽然有时也会出现翻白眼、口型对不准等失误,但瑕不掩瑜,整体效果十分惊艳。
二、EMO技术解读:基于稳定扩散模型, 两种 注意力机制交叉执行
EMO框架提供了一种新颖的方法,采用直接从音频到视频的合成方式,不需要复杂的3D模型或面部标记,即可生成富有表现力的视频。
▲EMO工作流程(图源:论文)
为了建立一个新的说话头像框架,作者提出一种利用扩散模型生成能力的方法,该方法消除了中间表示或复杂预处理,简化了创建具有高度视觉和情感保真度的肖像视频的过程。
EMO采用稳定扩散 (Stable Diffusion,SD)模型作为基础框架,它的优势在于既能降低计算成本,又能保持较高的视觉保真度。
EMO框架主要分为两个阶段 ,整体工作流程如下图所示:
▲EMO整体框架(图源:论文)
第一个阶段名为帧编码 (Frames Encoding),利用ReferenceNet 从参考图像和运动帧中提取特征,旨在保持视频中角色的一致性。
第二个阶段是扩散处理 (Diffusion Process),云训练的音频编码器处理音频嵌入,面部区域掩码与多帧噪声相结合,用来控制面部图像的生成,随后利用主干网络 (Backbone Network)进行去噪。
主干网络具有与SD 1.5类似的UNet结构,其中交叉执行 了两种形式的注意力机制:参考注意力 (Reference-Attention)和音频注意力 (Audio-Attention)。这两种机制在潜在编码和语音特征之间交叉执行,分别用于保持人物身份和调节人物动作。此外,时序模块 (Temporal Modules)用于操控时间维度和调整运动速度。
参考注意层 中,ReferenceNet具有与主干网络相同的结构,用于从输入图像中提取详细特征。目标角色的图像被输入ReferenceNet,以提取自注意层输出的参考特征图。由于ReferenceNet主要用于处理单个图像,因此不含主干网络中的时间层。
语音中的发音和语调是生成肖像运动的主要驱动信号。在音频注意层 ,从输入音频中提取出的特征通过预训练的语音识别模型Wav2vec进行连接,得到每一帧的音频表示嵌入。为了计算运动受未来/过去音频片段的影响,例如说话前的张嘴和吸气,作者通过串联附近帧的特征来定义每个生成帧的语音特征。
大多数模型都会在预训练的文本到图像架构中插入时序混合层 ,以促进对连续视频帧之间时间关系的理解和编码。受文生视频框架AnimateDiff架构概念的启发,EMO将自关注时序层应用于帧内特征。具体来说,EMO将输入特征图重构,在时序维度上进行自我关注,以有效捕捉视频的动态内容,时序层被插入主干网络的每个分辨率层。
在视频时长 方面,受一些方法采用前一个片段结尾的帧作为后续生成初始帧的启发,EMO采用了前一个生成片段的最后n个帧,称之为“运动帧” (Motion frames),将其输入参考网络,以预提取多分辨率运动特征图。在主干网络的去噪过程中,EMO会将时序层输入与预提取的运动特征图进行合并,从而有效确保不同片段之间的一致性。
值得注意的是,虽然主干网络可能会反复多次对噪声帧进行去噪处理,但目标图像和运动帧只需连接一次并输入参考网络。因此,提取的特征会在整个过程中重复使用,确保推理过程中的计算时间不会大幅增加。
为了训练模型,作者构建了一个庞大而多样化的音视频数据集,收集了超过250小时 的视频素材和超过1.5亿张 图像,涵盖多种语言的演讲、电影、影视剪辑及歌唱表演,此外还补充了大型户外高分辨率视听数据集HDTF和高质量的视频人脸数据集VFHQ的内容。
在与同类型方法DreamTalk、SadTalker、Wav2Lip等的比较中,EMO在FID、FVD、E-FID等3个指标上表现最佳,它们分别衡量视频质量 、单帧质量 和面部表情生动度 。
▲EMO与其他肖像视频生成方法的定量比较(图源:论文)
不足方面,作者称一是与不依赖于扩散模型的方法相比,EMO更耗时;其次,由于模型训练过程中没有使用任何明确的控制信号来控制角色的运动,可能会导致无意中生成其他身体部位,从而在视频中产生伪影。
三、4个月连发6个项目,阿里全方位布局AI视频
近期,阿里持续围攻AI视频赛道,短短4个月内连发至少6个 新项目。比起Sora等主攻视频生成长度和质量的模型,阿里团队的项目似乎更注重于算法在不同视频生成形式上的具体应用。今年1月,通义千问上线了“全民舞王” ,凭借“兵马俑跳科目三”出圈了一把。
1、I2VGen-XL:图像+文字生成高质量视频
该算法发布于2023年11月8日,利用静态图像作为关键指导形式来确保输入数据的对齐,代码和模型已开源。I2VGen-XL由两个阶段组成,一是基础阶段,通过使用两个分层编码器保证连贯的语义并保留输入图像的内容;二是细化阶段,通过合并额外的简短文本来增强视频的细节,并将分辨率提高到1280×720。
项目主页: https://i2vgen-xl.github.io/
2、AnimateAnyone:一张图让任何角色跳舞
AnimateAnyone发布于2023年11月29日,能够通过角色照片生成受姿势序列控制的动画视频,“全民舞王”功能背后用到的技术正是这一算法。
据论文介绍,AnimateAnyone也是基于SD基础模型,同时引入了ReferenceNet来保持细节特征的一致性,Pose Guider来控制角色的动作,以及Temporal-Attention来保证视频帧之间的平滑过渡。
项目主页: https://humanaigc.github.io/animate-anyone/
3、DreaMoving:一张图让角色在任意地点跳舞
DreaMoving发布于2023年12月9日,是一个基于SD的可控视频生成框架,用于生成高质量的定制人物视频。它在AnimateAnyone的基础上,增加了对文本输入的支持,通过输入一张图像和一段描述文字,能够生成目标人物穿着不同衣物在不同背景上跳舞的视频。
项目主页: https://dreamoving.github.io/dreamoving/
4、DreamTalk:EMO前身?跨风格生成说话肖像
2023年12月16日,阿里与清华大学、华中科技大学等联合发布了DreamTalk,与EMO一样针对富有表现力的头像生成。DreamTalk由三个关键组件组成:降噪网络、风格感知唇部专家和风格预测器,分别用于合成一致的由音频驱动的面部运动、指导唇部同步和说话风格,以及直接从音频预测目标表情。
相较于DreamTalk给出的演示,可以看出在2个多月的时间内,EMO在技术上实现了巨大的突破。
项目主页: https://dreamtalk-project.github.io/
5、TF-T2V:使用无文本视频扩大文本到视频生成
2023年12月26日,阿里发布了TF-T2V,它可以直接使用无文本视频学习,扩展了现有的视频生成技术,其背后的基本原理是将文本解码过程与时间建模过程分开。代码和模型已公开。
项目主页: https://tf-t2v.github.io
6、Motionshop:使用3D模型替换视频角色
Motionshop发布于今年1月16日,是一个用3D模型替换视频中角色的框架。该框架由两部分组成,分别是用于提取修复背景视频序列的视频处理管道,以及用于生成头像视频序列的姿势估计和渲染管道。据称,通过并行两条管线并使用高性能光线追踪渲染器TIDE,整个过程可以在几分钟内完成。
项目主页: https://aigc3d.github.io/motionshop/
结语:AI视频赛道涌现更多新玩法
在AI视频这个赛道上,阿里另辟蹊径,从新玩法、新形式上开发了不少有趣的项目,这也给国内其他玩家提供了一条新思路:不一定非要死磕AI生成的视频时长或分辨率等参数,从应用的角度出发也能让人眼前一亮。
目前,这些项目大多还处于“期货”阶段,暂未开放代码或试用入口。不过可以预见到的是,EMO等项目一旦落地产品,在影视、游戏、社交媒体等行业都大有可为。
它可以用于创建角色动画和虚拟演员,为游戏角色创建动态表情和动作,降低成本并提高创作灵活性;或者像“兵马俑跳科目三”一样刷屏短视频平台,为创作者提供新形态的创作方式。
任何技术都有两面性,EMO、Sora等AI视频生成算法也带来关于隐私、版权和伦理的新讨论。如果眼见不再为实,我们该如何分辨真实和虚拟?AI电信诈骗、AI造谣等都是可能存在的风险。
未来我们期待看到更多像“全民舞王”一样好玩的应用落地,让AI视频赛道百花齐放。随着这类音频驱动图像的AI工具走向普及,内容创作和娱乐产业将迎来全新可能。
https://zhidx.com/p/415224.html