欢迎访问本站!

首页科技正文

usdt充币教程(www.6allbet.com):谷歌大脑提出简化希罕架构,预训练速率可达T5的7倍

admin2021-01-1410

2021-01-13 17:24 机械之心Pro

刚刚,Google Brain 高级研究科学家 Barret Zoph 发帖示意,他们设计了一个名叫「Switch Transformer」的简化希罕架构,可以将语言模子的参数目扩展至 1.6 万亿(GPT-3 是 1750 亿)。在盘算资源相同的情况下,Switch Transformer 的训练速率可以到达 T5 模子的 4-7 倍。

在深度学习领域,模子通常会对所有输入重用相同的参数。但 Mixture of Experts (MoE,夹杂专家) 模子是个破例,它们会为每个输入的例子选择差别的参数,效果获得一个希罕激活模子——虽然参数目惊人,但盘算成本恒定。

现在,MoE 模子已在机械翻译领域取得了令人瞩目的成就,但由于模子复杂度高、通讯成本高、训练不够稳固,其广泛应用受到了一定的阻碍。

为了解决这些问题,Google Brain 的研究者提出了 Switch Transformer。在 Switch Transformer 的设计中,它们简化了 MoE 的路由算法(routing algorithm),设计了直观的改善模子,新模子的通讯成本和盘算成本都大大降低。此外,他们提出的训练手艺还提高了训练的稳固性,首次解释大型希罕模子也可以用低精度(bfloat16)举行训练。

,

币游国际官网

欢迎进入币游官网(币游国际官网),币游官网:www.9cx.net开放币游网址访问、币游会员注册、币游代理申请、币游电脑客户端、币游手机版下载等业务。

,

论文链接:https://arxiv.org/pdf/2101.03961.pdf

代码链接:

https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py

研究者还将新模子与 T5-Base 和 T5-Large 举行了对比,效果解释,在相同的盘算资源下,新模子实现了最高 7 倍的预训练速率提升。这一改善还可以扩展至多语言设置中,在所有的 101 种语言中都测到了新模子相对于 mT5-Base 版本的性能提升。

网友评论