谷歌训练开发一个万亿参数的AI语言模型

2021-04-26 06:21:35

导读参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般来说在语言领域参数的数量和复杂性之间的相关性非常好。

参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般来说在语言领域参数的数量和复杂性之间的相关性非常好。例如 OpenAI的GPT-3是有史以来训练了1750亿个参数的最大语言模型之一它可以进行原始类比、生成配方甚至完成基本代码。

近日谷歌的研究人员开发了一种技术并对其进行基准测试他们声称这种技术能够训练包含超过一万亿参数的语言模型。他们表示他们的1.6万亿参数模型是迄今为止最大的比之前最大的谷歌开发的语言模型（T5-XXL）快了4倍。

研究人员指出大规模训练是建立强大模型的有效途径。简单的架构大数据集和参数计数的支持超越了更复杂的算法。但是大规模的训练虽然有效但计算强度极高。这就是为什么研究人员追求他们所谓的Switch Transformer 一种“稀疏激活”技术它只使用模型权重的子集或转换模型内输入数据的参数。

Switch Transformer的新颖之处在于它有效地利用了为密集矩阵乘法（广泛应用于语言模型的数学运算）设计的硬件如GPU和TPU。在研究人员的分布式训练设置中他们的模型将不同的权重分配到不同的设备上这样权重就会随着设备数量的增加而增加但在每个设备上都保持可管理的内存和计算空间。

在一项实验中研究人员使用32个TPU内核预先训练了几种不同的Switch Transformer模型这个语料是一个750GB大小的数据集包含从Reddit、Wikipedia和其他网络资源上获取的文本。他们让这些模型预测有15%的单词被掩盖的段落中遗漏的单词以及其他挑战比如检索文本回答一系列越来越难的问题。

研究人员声称与包含3950亿个参数和64名专家的更小的模型（Switch-XXL）相比他们发明的拥有2048名专家的1.6万亿参数模型（Switch-C）则“完全没有训练不稳定性”。

然而在SQuAD的基准测试上 Switch-C的得分却更低（87.7）而Switch-XXL的得分为89.6 研究人员将此归因于微调质量、计算要求和参数数量之间的不明确关系。

在这种情况下 Switch Transformer还是在许多下游任务上的效果有了提升。例如在使用相同数量的计算资源的情况下它可以使预训练的速度提高了7倍以上。

同时研究人员证明大型稀疏模型可以用来创建更小、更稠密的模型这些模型可以对任务进行微调其质量增益只有大型模型的30% 。

在一个测试中一个 Switch Transformer 模型被训练在100多种不同的语言之间进行翻译研究人员观察到其中101种语言都得到了普遍的改善。

在未来的工作中研究人员计划将Switch Transformer应用于新的和不同的形态中去包括图像和文本。他们认为模型稀疏性在一系列不同的媒体和多模态模型中都具有优势。责任编辑:pj

免责声明：本文由用户上传，如有侵权请联系删除！

标签：