本文是对《LanguageModelsareUnsupervisedMultitaskLearners》的翻译,部分内容可能会存在理解错误,如有错误欢迎指正交流。个人对论文的理解最近GPT-2的关注度很高,其效果极其惊人,官方甚至表示因为其效果太差怕被用来做坏事并未开源,粉丝认为openAI恶意炒作,有人甚至吐槽它应该改名叫closedAI。
我们的基本预训练方法(包括模型,数据和训练)与gpt2中描述的过程相似,模型尺寸,数据集大小和多样性以及训练时间的扩展相对简单。我们在上下文学习中的使用也类似于gpt2,但是在这项工作中,我们系统地探索了在上下文中进行学习的不同设置。
最小的模型堆叠了12层与GPT正常模型大小一样,中号24层与BERT大模型等大,大号36层,特大号堆叠了48层仍能继续fit,特大号的模型被称为GPT-2,它有1600维隐藏层,参数规模达1.5G,还支持比之前更长的序列,和更长的batch_size。
本质上,GPT2.0选择了这么一条路来强化Bert或者是强化GPT1.0的第一个预训练阶段:就是说首先把Transformer模型参数扩容,常规的TransformerBig包含24个叠加的Block,就是说这个楼层有24层高,GPT2.0大干快上,加班加点,把楼层连夜盖到了48层
编者按:自然语言处理顶会ACL2020将于7月5日-10日在线举行。本届大会中,微软亚洲研究院共有22篇论文被录取,内容涵盖机器翻译、文本生成、机器阅读理解、事实检测、人机对话等领域。本文精选了6篇有代表性的论文为大家介绍。
收藏|NLP论文、代码、博客、视频资源(LSTM,指针模型,Attention,ELMo,GPT,BERT、多任务学习等).在近几年,NLP领域得到了快速的发展,包括ELMo,BERT在内的新方法不断涌现,显著提高了模型在一系列任务的表现。.在本文中,作者针对主要的NLP模型、常…
GPT2.0论文其实更强调训练数据的通用性强这点。当然,除了量大通用性强外,数据质量也很重要,高...
DOI:10.11728/cjss2020.02.242高纬度地区GPT2w模型的适应性分析姚翔1陈明剑2王建光彳陈锐21(63798部队西昌615000)2(信息工程大学地理空间信息学院郑州45...