识别 4000 种语言、生成 1000 多种语音，Meta 开源大模型再下一城！-微咔网

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

和 OpenAI、Gооgle 分道扬镳，Meta 在开源大模型方向上越走越深。

今日，Meta 在 GitHub 上再次开源了一款全新的 AI 语言模型——Massively Multilingual Speech (MMS，大规模多语种语音)，它与 ChatGPT 有着很大的不同，这款新的语言模型可以识别 4000 多种口头语言并生成 1100 多种语音（文本到语音）。

在上线短短的几个小时，该 GitHub 库便收获了 23k Star，Fork 数量高达 5.5k。

GitHub 地址：https://github.com/facebookresearch/fairseq/tree/main/examples/mms

初衷

对于开发这款 MMS 模型，Meta 表示，「为设备配备识别和产生语音的能力可以让更多的人访问信息」。

不过，虽然全球已知的语言种类高达 7000 多种，但是现有的 AI 语音识别模型仅能够涵盖 100 种语言，范围太小了。

同时，语音识别和文本转语音模型通常需要对数千小时的音频进行训练，对于大多数语言而言，这些数据根本就不存在。甚至全球多种语言在时代不断发展中，会有不少在未来几十年有消失的危险。

为了能够保护世界上语言的多样性，也想要为濒临消失的语言做一些贡献，Meta 研究团队研发并开源了 MMS，「我们公开分享我们的模型和代玛，以便研究界的其他人可以在我们工作的基础上进行构建」。

当然，想要收集数千种语言的音频数据是开发这款大模型首先需要克服的困难。

在新的 MMS 开源语音模型中，Meta 使用了一种非常规的方法来收集音频数据，他们使用了圣经等宗教文本。

Meta 对此解释称，“我们使用宗教文本，是因为这些文本已被翻译成多种不同的语言，并且其译文已被广泛研究用于基于文本的语言翻译研究。这些翻译有公开的录音，记录了人们用不同的语言阅读这些文本的情况。”

作为大模型项目的一部分，Meta 创建了 1100 多种语言的数据集，每种语言平均提供 32 小时的数据。

另外，结合圣经和类似文本的未标记录音，Meta 的研究人员将模型的可用语言增加到 4,000 多种。

支持数千种语言的单一语音模型

当然，依靠这些数据，很多人认为这个是偏向宗教的一种 AI 模型。事实上，Meta 表示，并非如此。

Meta 在公告中写道，“虽然录音的内容是宗教的，但我们的分析表明，这并没有使模型过度偏向于产生更多的宗教语言。我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法，与用于语音识别的大型语言模型 (LLM) 或序列到序列模型相比，这种方法受到的限制要大得多。”

在训练这个模型时，Meta 结合使用了自家公司的“自监督语音表示学习”模型——wav2vec 2.0，它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型能够带来不错的效果。

根据测试数据表明，与现有的模型相比，Meta 在使用 1B 参数 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型。随着语言数量的增加，性能确实会下降，但幅度很小：从 61 种语言增加到 1,107 种语言，字符错误率仅增加了约 0.4%，但语言覆盖率增加了 18 倍以上。