如果你平时玩微博、逛B站,最近肯定被一条“没有译制片腔调的翻译”视频刷屏过。影片中,霉霉、特朗普、艾玛沃森、憨豆先生等一众外国友人操着流利的中文,口型语气声线无缝衔接,毫无违和;而以塑造“毒舌女王”角色著称的蔡明阿姨,则来了个如假包换的英文脱口秀,听口音还是伦敦市区的。

影片原作者「johnhuu教英语」称,要达成这种“没有译制片腔调的配音效果”,需要同时符合三个条件:地道的口语翻译、克隆说话者的声音、替换嘴型。关于是怎么做出来的他却卖了个关子,表示自己是“先掌握了这种技术,但是制作起来还是非常麻烦”。

Johnhuu所使用的工具应该是HeyGen,一款在线AI数字人视频生成平台。它将人工智能技术融入一般的视频制作流程中,为用户快速生成定制化内容。目前可以做到创建自己的AI形象、制作虚拟主播、文字/图片转视频、声音克隆等。

这则风靡全网的影片似乎就是结合了HeyGen前不久更新的Video Translation(视频翻译)功能。只需上传一段视频,选择要转换的语言,就可以让视频里的「美国甜心」霉霉保留原本的声线语气,摇身一变成为“中文十级学者”了(Johnhuu亦有对翻译、字幕等进行剪辑调整)。

而在国外的社交网站上,大家也早已兴奋地玩出了花:
从硅谷到中国发展的连续创业者Jim Fields就在X对HeyGen大加赞赏,他尝试把他说的英语翻译成中文,又把他讲的中文翻译回英语,表示“效果还挺溜儿!说不定未来我也可以'说'广东话!”

HeyGen的Co-founder和CPO Wayne Liang录制了英文视频,来展示日语和法语版本。更有人一次性解锁了韩语、印尼语、意大利语、土耳其语、德语、英语6种语言,每一个都惟妙惟肖,切换自如,不输母语者。

推出HeyGen的公司中文名叫诗云科技,成立于2020年底,总部在深圳。他们的愿景是“颠覆内容生产的方式,用 AI 生成来打造新一代的内容生产平台” ,希望代替摄像机,让用户以更为低廉的成本完成高质量内容创作。其核心技术是深度学习、生成对抗网络(GAN)、强化学习和3D建模等。目前已获得来自IDG资本、真格基金、红杉中国和百度的早期投资。
创始人Joshua Xu和Wayne Liang是美国卡内基梅隆大学的两位校友。其中Joshua曾是Snapchat 前100号员工,Monetization团队的3号工程师和Ads Ranking团队首席工程师,参与创建了Snapchat机器学习平台Barista。Wayne则曾任字节跳动美国的设计主管,负责企业软件和内部产品创新的设计。