小版BERT也能出奇迹最火的预训练语言库

选自Medium

作者:VictorSanh

机器之心编译

参与:魔王

过去一段时间,大模型层出不穷。在大家纷纷感叹「大力出奇迹」的时候,作为调用预训练语言模型最流行的库,HuggingFace尝试用更少的参数量、更少的训练资源实现同等的性能,于是知识蒸馏版BERT——DistilBERT应运而生!

近日,HuggingFace发布了NLPtransformer模型——DistilBERT,该模型与BERT的架构类似,不过它仅使用了万参数(区别于BERT_base的1.1亿参数),却在GLUE基准上实现了后者95%的性能。

在过去18个月中,基于大规模语言模型的迁移学习显著提升了自然语言处理任务的SOTA成绩。这些预训练语言模型通常基于Vaswani等人提出的Transformer架构,这些模型的规模越来越大,训练数据集的规模也越来越大。最近英伟达提出的预训练语言模型拥有83亿参数:是BERT-large参数量的24倍、GPT-2参数量的5倍。而FacebookAI最近提出的RoBERTa模型在GB文本上训练得到。

社区中的一些人质疑训练越来越大Transformer的必要性,尤其是考虑到训练的资金成本和环境成本时。该图展示了部分近期大模型及其参数量。

HuggingFace直接体会到这些模型的流行度,因为其预训练语言库(包含这些模型中的大部分)在近几个月的安装量超过40万次。

NLP库


转载请注明:http://www.aierlanlan.com/cyrz/1078.html