所在的位置：蒸馏管 >> 蒸馏管前景 >> 小版BERT也能出奇迹最火的预训练语言库

小版BERT也能出奇迹最火的预训练语言库

选自Medium

作者：VictorSanh

机器之心编译

参与：魔王

过去一段时间，大模型层出不穷。在大家纷纷感叹「大力出奇迹」的时候，作为调用预训练语言模型最流行的库，HuggingFace尝试用更少的参数量、更少的训练资源实现同等的性能，于是知识蒸馏版BERT——DistilBERT应运而生！

近日，HuggingFace发布了NLPtransformer模型——DistilBERT，该模型与BERT的架构类似，不过它仅使用了万参数（区别于BERT_base的1.1亿参数），却在GLUE基准上实现了后者95%的性能。

在过去18个月中，基于大规模语言模型的迁移学习显著提升了自然语言处理任务的SOTA成绩。这些预训练语言模型通常基于Vaswani等人提出的Transformer架构，这些模型的规模越来越大，训练数据集的规模也越来越大。最近英伟达提出的预训练语言模型拥有83亿参数：是BERT-large参数量的24倍、GPT-2参数量的5倍。而FacebookAI最近提出的RoBERTa模型在GB文本上训练得到。

社区中的一些人质疑训练越来越大Transformer的必要性，尤其是考虑到训练的资金成本和环境成本时。该图展示了部分近期大模型及其参数量。

HuggingFace直接体会到这些模型的流行度，因为其预训练语言库（包含这些模型中的大部分）在近几个月的安装量超过40万次。

NLP库

转载请注明：http://www.aierlanlan.com/cyrz/1078.html

上一篇文章：比较好看的4本历史小说,量大管饱不失精彩

下一篇文章：没有变少却在变多石油明明是不可再生资源,