Meta刚刚推出了一个名为SeamlessM4T的令人印象深刻的新工具。这种时髦的人工智能模型可以转录和翻译近 100 种语言,这是使语言障碍成为过去的一大进步。
该公司声称,无缝M4T,大规模多语言和多模式机器翻译,可以将语音转换为文本,将文本转换为语音,支持近100种语言。它识别 100 种输入语言,并将它们转换为 35 种输出语言,用于语音转语音和文本转语音功能。
因为它是在知识共享CC BY-NC 4.0许可证,研究人员可以自由地改进它。SeamlessAlign的信息是Meta开放翻译数据集的一部分,也与SeamlessM4T一起提供。根据 Meta 的说法,与在多个系统之间划分翻译的现有大型翻译模型相反,SeamlessM4T 在单个操作中完成了完整的翻译工作,使其成为“重大突破”。
如果 SeamlessM4T 按预期工作,它的一个有趣的方面是它应该能够检测代码切换或单个短语中两种或多种语言之间的转换。例如,Meta 在视频中展示了该模型如何立即区分印地语、泰卢固语和英语。
它拥有立即辨别说话者何时穿越语言的潜力,正如一段引人入胜的视频所示,它毫不费力地区分了印地语、泰卢固语和英语。这种能力可以彻底改变跨文化交流,促进一个语言不再是障碍的世界。
“为了与我们的开放科学方法保持一致,我们将在研究许可下公开发布SeamlessM4T,以允许研究人员和开发人员在这项工作的基础上进行构建。我们还发布了 SeamlessAlign 的元数据,这是迄今为止最大的开放多模态翻译数据集,总计 270,000 小时的挖掘语音和文本对齐。梅塔说.
为了生成更轻量级的模型并管理更多信息,Meta 声称它修改了其 Fairseq 序列建模工具箱以生成 SeamlessM4T。
根据Meta的说法,它创建了一个系统,可以在创建SeamlessM4T时识别有害或微妙的短语。根据 Meta 给出的定义,有毒词语是指“翻译可能煽动仇恨、暴力、亵渎或辱骂”的词语。目的是能够识别源内容中以前不存在输出翻译引入的毒性的情况。