8月23日,全球社交、科技巨头Meta(Facebook、Instagram等母公司)在官网宣布,开源多语音、语言,翻译、转录大模型SeamlessM4T。
24111034-2023-08-24T03:10:13.png
据Meta介绍,SeamlessM4T是首个一体化AI翻译大模型,支持100种语音、语言翻译,可执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。例如,将一段英文语音,自动翻译成地方中文语音(如闽南话)。

此外,SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型,并使用了270,000小时的语音和文本对齐数据。所以,这也是目前规模最大、功能最全的开源翻译模型。

目前,多数翻译产品只能翻译常规语音、语音,例如,中文、法语、德语、英语等,对于那些冷门使用较少的语言支持较差。

SeamlessM4T在技术层面实现了巨大突破,支持多达100种语音、语言,同时与单一翻译产品相比,翻译效率/质量、降低延迟方面更优秀,使得全球不同地区的人可以实现流程的交流。
Meta表示,SeamlessM4T能实现多模式翻译功能,主要由多款功能强大的翻译模型组合而成。

论文:https://ai.meta.com/research/publications/seamless-m4t/
在线演示:https://seamless.metademolab.com/
huggingface演示:https://huggingface.co/spaces/facebook/seamless_m4t
开源地址:https://github.com/facebookresearch/seamless_communication