Meta 的开源语音 AI 模型支持 1,100 多种语言
机器学习和语音识别技术的进步使人们更容易获取信息,特别是那些依赖语音获取信息的人。然而,多种语言缺乏标记数据给开发高质量机器学习模型带来了重大挑战。
针对这一问题,Meta主导的大规模多语言语音(MMS)项目在扩大语言覆盖范围、提高语音识别和合成模型的性能方面取得了显着进展。
通过将自我监督学习技术与多样化的宗教读物数据集相结合,MMS 项目取得了令人印象深刻的成果,将现有语音识别模型支持的约 100 种语言扩展到 1,100 多种语言。
打破语言障碍
为了解决大多数语言标记数据稀缺的问题,MMS 项目利用了宗教文本,例如《圣经》,这些文本已被翻译成多种语言。
这些翻译提供了人们阅读文本的公开录音,从而能够创建一个包含 1,100 多种语言的《新约》阅读内容的数据集。
通过纳入其他宗教读物的未标记录音,该项目扩大了语言覆盖范围,可识别4,000 多种语言。
尽管数据集具有特定领域且主要是男性说话者,但这些模型对于男性和女性声音的表现同样出色。Meta 还表示,它没有引入任何宗教偏见。
通过自我监督学习克服挑战
每种语言仅使用 32 小时的数据来训练传统的监督语音识别模型是不够的。
为了克服这一限制,MMS 项目利用了 wav2vec 2.0 自监督语音表示学习技术的优势。
通过使用 1,400 种语言的约 500,000 小时的语音数据训练自监督模型,该项目显着减少了对标记数据的依赖。
然后针对特定的语音任务(例如多语言语音识别和语言识别)对所得模型进行微调。
令人印象深刻的结果
对基于 MMS 数据训练的模型的评估显示出令人印象深刻的结果。与 OpenAI 的 Whisper 相比,MMS 模型的单词错误率降低了一半,同时涵盖的语言数量增加了 11 倍。
此外,MMS 项目成功构建了 1,100 多种语言的文本转语音系统。尽管许多语言的不同说话者相对较少,但这些系统生成的语音表现出高质量。
虽然 MMS 模型已经显示出有希望的结果,但必须承认它们的缺陷。语音转文本模型的错误转录或误解可能会导致冒犯性或不准确的语言。MMS 项目强调整个人工智能社区的协作,以减轻此类风险。
来源 :
发布 : 2023-06-27
-
微信扫码
关注公众号 -
扫码查看
当前资讯