CoDeF：视频内容重建算法

作者: zhexuan

时间: 2023-08-20

标签: None

阅读(1065)

CoDeF是英文“the content deformation field”的缩写，即作者在此提出了基于退火哈希算法的、粒度逐步细化的视频内容重建算法，性能提升明显。

比起静态的图像风格迁移，这种任务的复杂点在于时间序列上的一致性和流畅度。

比如处理水、烟雾这种元素，两帧画面之间的一致性非常重要。

在此，作者“灵机一动”，提出用图片算法来直接解决视频任务。

他们只在一张图像上部署算法，再将图像-图像的转换，提升为视频-视频的转换，将关键点检测提升为关键点跟踪，而且不需要任何训练。

这样一来，相较于传统方法，能够实现更好的跨帧一致性，甚至跟踪非刚性物体。

具体而言，CoDeF将输入视频分解为2D内容规范场（canonical content field）和3D时间形变场（temporal deformation field）：

前者用于聚合整个视频中的静态内容；后者则负责记录图像沿时间轴的每个单独帧的转换过程。

利用MLP（多层感知器），每个场都用多分辨率2D或3D哈希表来表示。

在此，作者特意引入了正则化，来保证内容规范场能够继承原视频中的语义信息（比如物体的形状）。

如上图所示，这一系列设计使得CoDeF可以自动支持各种图像算法直接应用于视频处理——

比如，给CoDeF“套上”本用于图片处理的ControlNet，就可以完成视频风格的“翻译”（也就是我们开头和第一段看的那一堆效果）：

“套上”分割一切算法SAM，我们就能轻松做到视频的对象跟踪，完成动态的分割任务：

“套上”Real-ESRGAN，则给视频做超分也是信手拈来……

让蓝衣战神秒变迪士尼公举：

比如输入“Chinese ink painting”，风景纪录片能秒变国风水墨大作。

地址：https://qiuyu96.github.io/CoDeF/
源码：https://github.com/qiuyu96/CoDeF