自然语言处理研究论文

4个回答默认排序

默认排序

按时间排序

qiuqiuFreda

已采纳

自然语言处理（概念）简介自然语言（略缩为NL)指的是任何自然而然为人类所使用的语言，而非任何人造的或合成的语言，例如程序设计语言。自然语言处理（略缩为NLP),是所有试图用电脑处理自然语言的适合描述。[1]自然语言处理包括：语音合成：虽然这乍看起来不是很高端（的科技），但其实合成听起来自然的语音需要很复杂的技术并在一定程度上‘理解’在说的话，这样才能确保比如说，正确的语调。语音识别：基本上就是将持续不断的声波转换成独立的词语。自然语言理解：在这里将独立的词语（书面文件或者从语音识别得来的资料）进行处理并赋予意思。这可能会涉及完全模型系统或者‘前端’，以自然语言命令带动其他程序。自然语言生成：针对不可预测的输入问题生成恰当的的自然语言回答。补充：在自然语言处理中使用数字计算机的想法已经算旧（概念）了，这可能是因为二战时期军用解码就是计算机的应用之一。有些计算机专家甚至曾认为（其他语言）例如俄文，不过是换了一组代码的英文而已。这样想的话，因为代码可以被解开，那么俄文也可以（被翻译）。这个想法假设不论这些自然语言表面如何变化，他们都有一个共同的‘语义基’。（对此）语言学家有压倒性的共识，那就是这根本是不正确的。在程序编制器和编程语言通译器的形式下，由早期开始，‘人工语言处理’是就数字计算机的成功中不可或缺的重要部分。此成就无疑鼓励了人们进入自然语言处理的研究（领域），并同时提倡积极乐观的研究态度。

204 评论 1小时前发布

哟西小得瑟

自然语言处理领域的相关内容，我明白的

172 评论 1小时前发布

阿雯雯777

title: 自然语言处理综述 date: 2021-11-18 11:03:11 自然语言是指人类日常使用的语言，比如：中文、英语、日语等。自然语言灵活多变，是人类社会的重要组成部分，但它却不能被计算机很好地理解。为了实现用自然语言在人与计算机之间进行沟通，自然语言处理诞生了。自然语言处理(Natural Language Processing, NLP)是一个融合了语言学、计算机科学、数学等学科的领域，它不仅研究语言学，更研究如何让计算机处理这些语言。它主要分为两大方向：自然语言理解(Natural language Understanding, NLU)和自然语言生成(Natural language Generation, NLG)，前者是听读，后者是说写。本文将从自然语言处理的历史与发展讲起，进而分析目前深度学习在自然语言处理领域的研究进展，最后讨论自然语言处理的未来发展方向。 1950年，计算机科学之父图灵提出了“图灵测试”，标志着人工智能领域的开端。而此时，正值苏美冷战，美国政府为了更方便地破译苏联相关文件，大力投入机器翻译的研究，自然语言处理从此兴起。从这之后的一段时期内，自然语言处理主要采用基于规则的方法，这种方法依赖于语言学，它通过分析词法、语法等信息，总结这些信息之间的规则，从而达到翻译的效果。这种类似于专家系统的方法，泛化性差、不便于优化，最终进展缓慢，未能达到预期效果。到了20世纪80、90年代，互联网飞速发展，计算机硬件也有了显著提升。同时，自然语言处理引入了统计机器学习算法，基于规则的方法逐渐被基于统计的方法所取代。在这一阶段，自然语言处理取得了实质性突破，并走向了实际应用。而从2008年左右开始，随着深度学习神经网络在图像处理、语音识别等领域取得了显著的成果，它也开始被应用到自然语言处理领域。从最开始的词嵌入、word2vec，到RNN、GRU、LSTM等神经网络模型，再到最近的注意力机制、预训练语言模型等等。伴随着深度学习的加持，自然语言处理也迎来了突飞猛进。接下来，我将介绍自然语言处理与深度学习结合后的相关进展。在自然语言中，词是最基本的单元。为了让计算机理解并处理自然语言，我们首先就要对词进行编码。由于自然语言中词的数量是有限的，那就可以对每个词指定一个唯一序号，比如：英文单词word的序号可以是1156。而为了方便计算，通常会将序号转换成统一的向量。简单做法是对单词序号进行one-hot编码，每个单词都对应一个长度为N（单词总数）的向量（一维数组），向量中只有该单词序号对应位置的元素值为1，其它都为0。虽然使用one-hot编码构造词向量十分容易，但并不是一个较好的方法。主要原因是无法很好地表示词的语义，比如苹果和橘子是相似单词（都是水果），但one-hot向量就无法体现这种相似关系。为了解决上述问题，Google的Mikolov等人于2013年发表了两篇与word2vec相关的原始论文[1][2]。word2vec将词表示成一个定长的向量，并通过上下文学习词的语义信息，使得这些向量能表达词特征、词之间关系等语义信息。word2vec包含两个模型：跳字模型（Skip-gram）[1] 和连续词袋模型（continuous bag of words，CBOW）[2]，它们的作用分别是：通过某个中心词预测上下文、通过上下文预测某个中心词。比如，有一句话"I drink apple juice"，Skip-gram模型是用apple预测其它词，CBOW模型则是用其它词预测出apple。首先介绍CBOW模型，它是一个三层神经网络，通过上下文预测中心词。以某个训练数据"I drink apple juice"为例，可以把apple作为标签值先剔除，将"I drink juice"作为输入，apple作为待预测的中心词。 Skip-gram模型与CBOW类似，也是一个三层神经网络模型。不同在于，它是通过中心词预测上下文，即通过"apple"预测出"I drink juice"。接下来简单介绍Skip-gram模型中各层：两种模型训练结束后，会取作为词向量矩阵，第i行就代表词库中第i个词的词向量。词向量可用来计算词之间的相似度（词向量点乘）。比如，输入 I drink _ juice 上下文，预测出中心词为apple、orange的概率可能都很高，原因就是在中apple和orange对应的词向量十分相似，即相似度高。词向量还可以用于机器翻译、命名实体识别、关系抽取等等。其实这两种模型的原型在2003年就已出现[3]，而Mikolov在13年的论文中主要是简化了模型，且提出了负采样与层序softmax方法，使得训练更加高效。词向量提出的同时，深度学习RNN框架也被应用到NLP中，并结合词向量取得了巨大成效。但是，RNN网络也存在一些问题，比如：难以并行化、难以建立长距离和层级化的依赖关系。而这些问题都在2017年发表的论文《Attention Is All You Need》[4]中得到有效解决。正是在这篇论文中，提出了Transformer模型。Transformer中抛弃了传统的复杂的CNN和RNN，整个网络结构完全由注意力机制组成。 Transformer最核心的内容是自注意力机制(Self-Attention)，它是注意力机制(Attention)的变体。注意力的作用是从大量信息中筛选出少量重要信息，并聚焦在这些信息上，比如：人在看一幅图像时，会重点关注较为吸引的部分，而忽略其它信息，这就是注意力的体现。但注意力机制会关注全局信息，即关注输入数据与输出数据以及中间产物的相关性。而自注意力机制则减少了对外部其它数据的关注，只关注输入数据本身，更擅长捕捉数据内部的相关性。自注意力机制的算法过程如下：自注意力机制不仅建立了输入数据中词与词之间的关系，还能并行地高效地计算出每个词的输出。 Transformer的总体架构如下：它分为两部分：编码器（Encoder）和解码器（Decoder）。编码器的输入是词向量加上位置编码（表明这个词是在哪个位置），再通过多头自注意力操作（Multi-Head Attention）、全连接网络（Feed Forward）两部分得到输出。其中，多头自注意力就是输入的每个词对应多组q、k、v，每组之间互不影响，最终每个词产生多个输出b值，组成一个向量。编码器是transformer的核心，它通常会有多层，前一层的输出会作为下一层的输入，最后一层的输出会作为解码器的一部分输入。解码器包含两个不同的多头自注意力操作（Masked Multi-Head Attention和Multi-Head Attention）、全连接网络（Feed Forward）三部分。解码器会运行多次，每次只输出一个单词，直到输出完整的目标文本。已输出的部分会组合起来，作为下一次解码器的输入。其中，Masked Multi-Head Attention是将输入中未得到的部分遮掩起来，再进行多头自注意力操作。比如原有5个输入，但某次只有2个输入，那么q1和q2只会与k1、k2相乘，。如果深度学习的应用，让NLP有了第一次飞跃。那预训练模型的出现，让NLP有了第二次的飞跃。预训练通过自监督学习（不需要标注）从大规模语料数据中学习出一个强大的语言模型，再通过微调迁移到具体任务，最终达成显著效果。预训练模型的优势如下：预训练模型的关键技术有三个：关于预训练模型的架构，以Bert为例：输入是词的one-hot编码向量，乘上词向量矩阵后，再经过多层transformer中的Encoder模块，最终得到输出。本文介绍了NLP领域的流行研究进展，其中transformer和预训练模型的出现，具有划时代的意义。但随着预训练模型越来越庞大，也将触及硬件瓶颈。另外，NLP在一些阅读理解、文本推理等任务上的表示，也差强人意。总而言之，NLP领域依旧存在着巨大的前景与挑战，仍然需要大家的长期努力。 [1]Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119). [2]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:. [3]Yoshua Bengio, R´ejean Ducharme, Pascal Vincent, and Christian Janvin. A neural probabilistic language model. The Journal of Machine Learning Research, 3:1137–1155, 2003. [4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008. [5]Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:, 2018. [6]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018. [7]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:, 2018. [8]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//International Conference on Machine Learning. PMLR, 2019: 2790-2799.

219 评论 4小时前发布

梁山好汉v

在自然语言处理的领域内有乐观与悲观的周期性存在（我们现在大概是出于乐观期）；虽然（技术上）真的有一些进步，但是达到一个全面自然语言处理系统的目标仍然遥不可及。（这里我没有用elusive的直译，难以捉摸，因为放进中文里会很怪，没有人说目标难以捉摸。）历史上，计算机专家有时对于自然语言处理（的挑战性）过于乐观，其原因很可能就是以上提到的（周期性）。因此从一开始就清楚这个（自然语言处理）的难度的原因是很重要的。同时，了解自然语言之间的不同也是很重要的一点。相对于其他自然语言来说，更多的研究重点放在了英文上，主要是因为美国研究者（在这个领域里）的重要性，尽管日本和欧洲也有很积极的研究学者。可是，在某一方面来讲，英文不是一个具有代表性的语言：它没有音调变化，并且严重依赖单词顺序。教课书和其他英文版的（自然语言处理）启蒙书籍几乎没有包括任何有关（与英语有）不同语法结构的语言的自然语言处理的合适论述。我们可以区别起码三个完全不同的自然语言处理级别：声音语法语义每一个都可以被再分为两到三个亚级别，但这不是本文的重点。在这个简介里我想要做的是阐明在处理每个级别中会遇到的一些问题。这里有以英文为母语的南英格兰人说的三个词：输入，纳入，收入(input, intake, income)；（请大家）思考这三个词。很显然的，三个词都有相同语义的元素。输入，指的是把什么东西放进去；抽水机的纳入指的是水被抽进去的地方，你的收入指的是你赚的钱（就是进你口袋的钱）。三个词中的in元素（在指定说话人的情况下）都发一样的音吗？如果注意听的话就会发现并不是这样。Input 这个词在发音的时候听起来像是拼法是imput的词，而intake听起来就和它的拼法一样。如果我们用N代表English 里边ng的发音，那么Income就有点iNcome的感觉。我特地点出了说话者是从南英格兰来的本土人，因为很多苏格兰人说英文的时候都没有这种习惯，就像所有其他英文母语者在慢慢地富有感情的说这三个词的时候一样，他们都会将in的发音发成和它拼法一样。有趣的是，不论在他们自己或是其他人的言语中，以英文为母语者通常都不会注意到这些差别。这不是因为他们没办法分辨m ,n ,N 这三种发音。Rum, Run, Rung这三个词就只有m, n, N这三个发音处不同而已，所有英文母语者都可以很好的区别它们。

287 评论 8小时前发布

自然语言处理研究论文

4个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序