刚刚,Google Brain 高级研究科学家 Barret Zoph 发帖示意,他们设计了一个名叫「Switch Transformer」的简化希罕架构,可以将语言模子的参数目扩展至 1.6 万亿(GPT-3 是 1750 亿)。在盘算资源相同的情况下,Switch Transformer 的训练速率可以到达 T5 模子的 4-7 倍。
在深度学习领域,模子通常会对所有输入重用相同的参数。但 Mixture of Experts (MoE,夹杂专家) 模子是个破例,它们会为每个输入的例子选择差别的参数,效果获得一个希罕激活模子——虽然参数目惊人,但盘算成本恒定。
现在,MoE 模子已在机械翻译领域取得了令人瞩目的成就,但由于模子复杂度高、通讯成本高、训练不够稳固,其广泛应用受到了一定的阻碍。
为了解决这些问题,Google Brain 的研究者提出了 Switch Transformer。在 Switch Transformer 的设计中,它们简化了 MoE 的路由算法(routing algorithm),设计了直观的改善模子,新模子的通讯成本和盘算成本都大大降低。此外,他们提出的训练手艺还提高了训练的稳固性,首次解释大型希罕模子也可以用低精度(bfloat16)举行训练。
,,欢迎进入币游官网(币游国际官网),币游官网:www.9cx.net开放币游网址访问、币游会员注册、币游代理申请、币游电脑客户端、币游手机版下载等业务。
论文链接:https://arxiv.org/pdf/2101.03961.pdf
代码链接:
https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py
研究者还将新模子与 T5-Base 和 T5-Large 举行了对比,效果解释,在相同的盘算资源下,新模子实现了最高 7 倍的预训练速率提升。这一改善还可以扩展至多语言设置中,在所有的 101 种语言中都测到了新模子相对于 mT5-Base 版本的性能提升。
网友评论