prefix论文发表

4个回答默认排序

默认排序

按时间排序

jackor57992

已采纳

有中文文献可在多家数据库里进行查询DOI,如中国知网、万方数据库、维普等。文献都有DOI号的。doi是指数字对象唯一标识符，是云计算背景下最佳的“大数据”样本存储和应用技术，用于IKE进行协商SA协议统一分配。DOI的组成形式解析：1. 编码方案：DOI的编码方案（即美国标准ANSI/NISO Z39.84-2000）规定，一个DOI由两部分组成：前缀和后缀，中间用“/”分割。对前缀与后缀的字符长度没有任何限制。2. 前缀组成：DOI前缀由两部分组成，目录代码和登记机构代码，任何想登记DOI 的组织或单位都可以向IDF申请登记机构代码。3. 后缀构成：DOI后缀是一个在特定前缀下唯一的后缀，由登记机构分配并确保其唯一性。后缀可以是任何字母数字码，其编码方案完全由登记机构自己来规定。

209 评论 2小时前发布

rememeber24

你可以参考一下李泽厚的《美的历程》宋篇

343 评论 10小时前发布

小小小小野

NLP技术发展的四种范式：

Prompt的起源可以追溯到GPT-2，T5，GPT-3等的一些研究，发现在输入样本前加入一个和任务相关的前缀，就可以提示模型接下来要输出的内容。比如在GPT-3的预测阶段，只需要在输入样本前加上Translate English to French: 就可以提示模型接下来要进行翻译任务，即完全依靠模型在预训练阶段学到的知识来进行预测，不需要在下游任务上再依靠task-specific的监督数据对模型进行fine-tune就可直接使用，一方面减少了fine-tune模型的计算和存储代价，另一方面也给样本量极度缺乏的少样本领域(zero/few-shot) 带来了福音。

这种依靠提示信息(Prompt) 来激发模型的内在潜能，挖掘模型在大规模预训练阶段学到的知识的做法引领了NLP领域的第四范式。人们逐渐开始思考如何更加高效地利用预训练语言模型的大量参数，如何将各种下游任务都统一到一个通用框架下，使得模型能够根据不同的提示信息进行不同的任务，从而不需要再为每个下游任务训练单独的模型。

本文将对Prompt快速发展过程中一些重要论文的核心创新点进行简要介绍，而不会详细描述过多模型细节（欲知全貌建议直接读原论文）。

论文：Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (2020)

该论文对Prompt模式的研究进行了规范，提出了 Pattern-Verbalizer 的概念：

比如对于5分类任务，给定输入样本 a ，对应的模板函数 P 和标签映射函数 v 可为：

注意这里多种Prompt模板函数以及答案映射函数都是人工手动设计的。然后利用新构建出来的 P(x)，v(l) 对预训练模型进行fine-tune，其他更多细节不再展开，实验结果显示该方法在少样本任务上表现很好。

论文：It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners （ PET原班人马）

GPT-3出来后显示了其在少样本学习上的惊人能力，但是其庞大的参数量也令人望而却步。而本文作者提出 “小模型在少样本学习上也可以有卓越表现” ，直接对标GPT-3这个庞然大物，从而奠定了 PET所提范式在江湖的霸主地位，引起了各大武林人士的关注。

该文证明了PET所提范式的有效性，同时作者还分析发现设计不同的 Prompt 模板和标签映射函数 Verbalizer 对模型性能影响较大，从而引起后来人员涌入改进Prompt模板和标签映射Verbalizer构造的浪潮中。

论文：Making Pre-trained Language Models Better Few-shot Learners

取代PET中手动构建Prompt模板和标签映射函数的过程，自动化搜索模板和标签映射，同时参考GPT-3中的in-context learning，在输入样本中加入示例(demonstrations)作为上下文，帮助模型更好地理解要做什么。

实验表明，在少样本上，这种基于prompt的fine-tune效果能够明显好于标准的fine-tune，并且在样本中加入示例确实能够带来增益。

也许未必非要构建人能理解的离散tokens式的Prompt，构建模型能够接受的连续向量式的Prompt也未尝不可。

4.1 论文： Prefix-Tuning : Optimizing Continuous Prompts for Generation

该文针对 NLG(Natural Language Generation) 任务，提出了构建连续的prompts。在预训练模型的每一层加上一个Prefix前缀矩阵，固定预训练模型的参数，仅训练前缀矩阵的参数，在few-shot设定下，性能超过标准的fine-tune。

实验结果表明，在全量数据下，prompt-based fine-tune的效果能够相当 standard fine-tune；在少样本下，能够超过 standard fine-tune。

4.2 论文：GPT Understands, Too ( P-tuning )

该文针对 NLU(Natural Language Understanding) 任务，也提出了构建连续的prompts。与 Prefix-tuning 不同的是，这里的prompts仅需要加在输入层，而不用加在网络的每一层，就可以work well。

利用 biLSTM 对prompts进行 Encode ，然后将编码后的 prompts embedding 和样本 x 输入预训练语言模型(PLM)，之后同时fine-tune prompt embeddings 和 pretrained model 。

考虑到优化连续的prompt向量有两个问题：

因此作者提出先采用 biLSTM 作为 Prompt Encoder 来编码prompt向量。

具体Prompt模板设计为：

实验结果表明，在全量数据下，prompt-based fine-tune的效果能够相当或超过standard fine-tune。

论文：The Power of Scale for Parameter-Efficient Prompt Tuning

该文提出为每个下游任务设计自己的prompt，拼接到输入样本上，然后完全freeze预训练模型的权重，仅训练prompts对应的权重参数。发现随着模型体积的增大， Prompt-tuning 的效果逐渐追上标准 fine-tune 的效果。

这里 Model Tuning 就是指标准的 fine-tune ，即在下游任务上对预训练模型的参数进行更新。

最后对各论文实验结果的普遍规律进行一个总结。各论文采用的fine-tune策略主要有以下三种：

250 评论 12小时前发布

林麓是吃货

曲径通幽—— 五代两宋对“雅”的追求

230 评论 12小时前发布

prefix论文发表

4个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序