首页 > 职称论文知识库 > 自然语言处理论文发表统计

自然语言处理论文发表统计

发布时间:

自然语言处理论文发表统计

title: 自然语言处理综述 date: 2021-11-18 11:03:11 自然语言是指人类日常使用的语言,比如:中文、英语、日语等。自然语言灵活多变,是人类社会的重要组成部分,但它却不能被计算机很好地理解。为了实现用自然语言在人与计算机之间进行沟通,自然语言处理诞生了。自然语言处理(Natural Language Processing, NLP)是一个融合了语言学、计算机科学、数学等学科的领域,它不仅研究语言学,更研究如何让计算机处理这些语言。它主要分为两大方向:自然语言理解(Natural language Understanding, NLU)和自然语言生成(Natural language Generation, NLG),前者是听读,后者是说写。 本文将从自然语言处理的历史与发展讲起,进而分析目前深度学习在自然语言处理领域的研究进展,最后讨论自然语言处理的未来发展方向。 1950年,计算机科学之父图灵提出了“图灵测试”,标志着人工智能领域的开端。而此时,正值苏美冷战,美国政府为了更方便地破译苏联相关文件,大力投入机器翻译的研究,自然语言处理从此兴起。从这之后的一段时期内,自然语言处理主要采用基于规则的方法,这种方法依赖于语言学,它通过分析词法、语法等信息,总结这些信息之间的规则,从而达到翻译的效果。这种类似于专家系统的方法,泛化性差、不便于优化,最终进展缓慢,未能达到预期效果。 到了20世纪80、90年代,互联网飞速发展,计算机硬件也有了显著提升。同时,自然语言处理引入了统计机器学习算法,基于规则的方法逐渐被基于统计的方法所取代。在这一阶段,自然语言处理取得了实质性突破,并走向了实际应用。 而从2008年左右开始,随着深度学习神经网络在图像处理、语音识别等领域取得了显著的成果,它也开始被应用到自然语言处理领域。从最开始的词嵌入、word2vec,到RNN、GRU、LSTM等神经网络模型,再到最近的注意力机制、预训练语言模型等等。伴随着深度学习的加持,自然语言处理也迎来了突飞猛进。 接下来,我将介绍自然语言处理与深度学习结合后的相关进展。 在自然语言中,词是最基本的单元。为了让计算机理解并处理自然语言,我们首先就要对词进行编码。由于自然语言中词的数量是有限的,那就可以对每个词指定一个唯一序号,比如:英文单词word的序号可以是1156。而为了方便计算,通常会将序号转换成统一的向量。简单做法是对单词序号进行one-hot编码,每个单词都对应一个长度为N(单词总数)的向量(一维数组),向量中只有该单词序号对应位置的元素值为1,其它都为0。 虽然使用one-hot编码构造词向量十分容易,但并不是一个较好的方法。主要原因是无法很好地表示词的语义,比如苹果和橘子是相似单词(都是水果),但one-hot向量就无法体现这种相似关系。 为了解决上述问题,Google的Mikolov等人于2013年发表了两篇与word2vec相关的原始论文[1][2]。word2vec将词表示成一个定长的向量,并通过上下文学习词的语义信息,使得这些向量能表达词特征、词之间关系等语义信息。word2vec包含两个模型:跳字模型(Skip-gram)[1] 和连续词袋模型(continuous bag of words,CBOW)[2],它们的作用分别是:通过某个中心词预测上下文、通过上下文预测某个中心词。比如,有一句话"I drink apple juice",Skip-gram模型是用apple预测其它词,CBOW模型则是用其它词预测出apple。 首先介绍CBOW模型,它是一个三层神经网络,通过上下文预测中心词。以某个训练数据"I drink apple juice"为例,可以把apple作为标签值先剔除,将"I drink juice"作为输入,apple作为待预测的中心词。 Skip-gram模型与CBOW类似,也是一个三层神经网络模型。不同在于,它是通过中心词预测上下文,即通过"apple"预测出"I drink juice"。接下来简单介绍Skip-gram模型中各层: 两种模型训练结束后,会取 作为词向量矩阵,第i行就代表词库中第i个词的词向量。词向量可用来计算词之间的相似度(词向量点乘)。比如,输入 I drink _ juice 上下文,预测出中心词为apple、orange的概率可能都很高,原因就是在 中apple和orange对应的词向量十分相似,即相似度高。词向量还可以用于机器翻译、命名实体识别、关系抽取等等。 其实这两种模型的原型在2003年就已出现[3],而Mikolov在13年的论文中主要是简化了模型,且提出了负采样与层序softmax方法,使得训练更加高效。 词向量提出的同时,深度学习RNN框架也被应用到NLP中,并结合词向量取得了巨大成效。但是,RNN网络也存在一些问题,比如:难以并行化、难以建立长距离和层级化的依赖关系。而这些问题都在2017年发表的论文《Attention Is All You Need》[4]中得到有效解决。正是在这篇论文中,提出了Transformer模型。Transformer中抛弃了传统的复杂的CNN和RNN,整个网络结构完全由注意力机制组成。 Transformer最核心的内容是自注意力机制(Self-Attention),它是注意力机制(Attention)的变体。注意力的作用是从大量信息中筛选出少量重要信息,并聚焦在这些信息上,比如:人在看一幅图像时,会重点关注较为吸引的部分,而忽略其它信息,这就是注意力的体现。但注意力机制会关注全局信息,即关注输入数据与输出数据以及中间产物的相关性。而自注意力机制则减少了对外部其它数据的关注,只关注输入数据本身,更擅长捕捉数据内部的相关性。 自注意力机制的算法过程如下: 自注意力机制不仅建立了输入数据中词与词之间的关系,还能并行地高效地计算出每个词的输出。 Transformer的总体架构如下: 它分为两部分:编码器(Encoder)和解码器(Decoder)。 编码器的输入是词向量加上位置编码(表明这个词是在哪个位置),再通过多头自注意力操作(Multi-Head Attention)、全连接网络(Feed Forward)两部分得到输出。其中,多头自注意力就是输入的每个词对应多组q、k、v,每组之间互不影响,最终每个词产生多个输出b值,组成一个向量。编码器是transformer的核心,它通常会有多层,前一层的输出会作为下一层的输入,最后一层的输出会作为解码器的一部分输入。 解码器包含两个不同的多头自注意力操作(Masked Multi-Head Attention和Multi-Head Attention)、全连接网络(Feed Forward)三部分。解码器会运行多次,每次只输出一个单词,直到输出完整的目标文本。已输出的部分会组合起来,作为下一次解码器的输入。其中,Masked Multi-Head Attention是将输入中未得到的部分遮掩起来,再进行多头自注意力操作。比如原有5个输入,但某次只有2个输入,那么q1和q2只会与k1、k2相乘,。 如果深度学习的应用,让NLP有了第一次飞跃。那预训练模型的出现,让NLP有了第二次的飞跃。预训练通过自监督学习(不需要标注)从大规模语料数据中学习出一个强大的语言模型,再通过微调迁移到具体任务,最终达成显著效果。 预训练模型的优势如下: 预训练模型的关键技术有三个: 关于预训练模型的架构,以Bert为例:输入是词的one-hot编码向量,乘上词向量矩阵后,再经过多层transformer中的Encoder模块,最终得到输出。 本文介绍了NLP领域的流行研究进展,其中transformer和预训练模型的出现,具有划时代的意义。但随着预训练模型越来越庞大,也将触及硬件瓶颈。另外,NLP在一些阅读理解、文本推理等任务上的表示,也差强人意。总而言之,NLP领域依旧存在着巨大的前景与挑战,仍然需要大家的长期努力。 [1]Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119). [2]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. [3]Yoshua Bengio, R´ejean Ducharme, Pascal Vincent, and Christian Janvin. A neural probabilistic language model. The Journal of Machine Learning Research, 3:1137–1155, 2003. [4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008. [5]Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802.05365, 2018. [6]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018. [7]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018. [8]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//International Conference on Machine Learning. PMLR, 2019: 2790-2799.

链接:

吴 军:科技史纲60讲。吴军,计算机科学家、硅谷投资人、著名自然语言处理和搜索专家、谷歌中日韩文搜索算法的主要设计者。畅销书《浪潮之巅》《数学之美》《文明之光》《大学之路》《硅谷之谜》《智能时代》《见识》《态度》作者。

我们总说要铭记历史,但是,在一个较长的历史阶段回望历史事件的影响力,再大的事情都显得微乎其微。从文明开启到未来科技,从5大文明中心到100多个具体发明、理论,吴军带你俯瞰科技演化,理清发明的关系,看懂世界变化规律。

课程目录:

历次技术革命的规律怎么用到当下?

各个文明的竞争,比的到底是什么

世界贸易中的瓷器和真实的历史

信息从哪里来,它和能量怎样互换?

.....

Julia Hirschberg.据wiki上写,她今年入选美国国家工程院院士。目前职位是哥大cs chair(这中文应该咋翻译,系头)。而且她还是"among the first to combine Natural Language Processing (NLP) approaches to discourse and dialogue with speech research." 方向更偏computational linguistics/ pragmatics. 她的contribution主要在研究语言现象(code switching, hedge and cues, deception, multi-linguistics, prosody, etc.),很多工作都是基于搭建corpus,纯pragmatic研究而非dl/ml模型。她也是最早开始关注discourse 和speech analysis的那批学者。如果有同学做对话要投interspeech,应该很熟悉她的名字。她在国内影响力没有其他人那么大的原因,我猜是因为语言现象的差异。很少听说国内有人关注pragmatics,或者用中文来做pragmatics.

规则方法和统计方法各有优劣,并不是所有任务都一定从规则方法转到统计方法。工程实施的角度看。在实际应用中,规则方法首要一个优点就是简单、实用、可以快速work。天下武功唯快不破!在实际应用中先找个简单有效的方法能先run起来,对于项目的推动具有重要的意义。从成本的角度看。相比较于统计方法的复杂流程,构建规则系统的成本相对要低很多。以笔者的经历,有相当一部分问题,只要规则合适,几条核心规则就可以解决大部分问题了。这类问题的特点是封闭域、问题小、规则明显。比如,数字的识别、时间的识别等。从准确率的角度看。对于一些中大的问题,比如对话系统、翻译等,的确在或已经从规则的方法转向统计的方法。综上,规则方法和统计方法是适用于不同的项目,或者是同一项目的不同阶段。到底是实用规则方法还是统计方法要根据实际情况具体分析。

自然语言处理发表论文统计

链接:

吴 军:科技史纲60讲。吴军,计算机科学家、硅谷投资人、著名自然语言处理和搜索专家、谷歌中日韩文搜索算法的主要设计者。畅销书《浪潮之巅》《数学之美》《文明之光》《大学之路》《硅谷之谜》《智能时代》《见识》《态度》作者。

我们总说要铭记历史,但是,在一个较长的历史阶段回望历史事件的影响力,再大的事情都显得微乎其微。从文明开启到未来科技,从5大文明中心到100多个具体发明、理论,吴军带你俯瞰科技演化,理清发明的关系,看懂世界变化规律。

课程目录:

历次技术革命的规律怎么用到当下?

各个文明的竞争,比的到底是什么

世界贸易中的瓷器和真实的历史

信息从哪里来,它和能量怎样互换?

.....

Christoph manning,目前nlp领域公认首席专家

Julia Hirschberg.据wiki上写,她今年入选美国国家工程院院士。目前职位是哥大cs chair(这中文应该咋翻译,系头)。而且她还是"among the first to combine Natural Language Processing (NLP) approaches to discourse and dialogue with speech research." 方向更偏computational linguistics/ pragmatics. 她的contribution主要在研究语言现象(code switching, hedge and cues, deception, multi-linguistics, prosody, etc.),很多工作都是基于搭建corpus,纯pragmatic研究而非dl/ml模型。她也是最早开始关注discourse 和speech analysis的那批学者。如果有同学做对话要投interspeech,应该很熟悉她的名字。她在国内影响力没有其他人那么大的原因,我猜是因为语言现象的差异。很少听说国内有人关注pragmatics,或者用中文来做pragmatics.

首先想到的不应该是Michael Collins吗……Michael Collins (Columbia), Jason Eisner (JHU), David Yarowsky (JHU)三位师兄弟(David > Michael > Jason)均师承于Upenn的Mitchell Marcus教授,也就是著名的Penn Treebank的作者。这三位是NLP界公认的大神,研究领域各有侧重。collins/eisner对NLP结构学习领域贡献极大,yarowsky早年研究词义消歧,是著名的yarowsky algorithm的作者,后来做了很多跨语言学习的开创性工作。Michael Collins的学生中著名的有Terry Koo (Google), Percy Liang (Stanford), Luke Zettlemoyer (UW);Jason Eisner的得意弟子当首推Noah Smith (CMU->UW);David Yarowsky似乎没有什么特别杰出的学生。Stanford NLP掌门Chris Manning,以《统计自然语言处理基础》一书以及Stanford NLP (toolkit) 而闻名。Dan Jurafsky,著有《语音与语言处理》一书,具有深厚的语言学背景。稍微提一下Manning的学生Richard Socher,近几年声名鹊起,在dl4nlp领域风头一时无两,属年轻一代翘楚。

UCBerkeley的Dan Klein,早些年在无指导学习领域建树颇多。Percy Liang也是他的学生。

UIUC的Dan Roth,ChengxiangZhai(偏IR);MIT的Regina Barzilay;哦,当然还有Brown大学的Eugene Charniak大神(Charniak parser),Brown大学也可算是没落的贵族了,和UPenn有点儿相似。欧洲方面,JoakimNivre (Uppsala University),代表工作是基于转移的依存句法分析。Philipp Koehn,著名机器翻译开源系统Moses作者,14年加入JHU。当然,在工业界也是NLP群星璀璨。Google有Fernando Pereira坐镇,此外还有Ryan McDonald,Slav Petrov等句法分析领域绕不开的名字;而最近Michael Collins也加入了Google;IBM则有Kenneth Church;提一嘴Tomas Mikolov (Facebook)吧,word2vec作者,虽然他严格意义上并不属于NLP核心圈子,但是不得不说,近两年acl/emnlp近半数文章都给他贡献了citation,能做到这种程度的人极少。以上我提到的人都是对NLP领域有重要基础性贡献并经过时间考验的(citation超过或者接近1W),除了以上提到的,还有很多非常优秀的学者,比如Kevin Knight,Daniel Marcu, Mark Johnson,Eduard Hovy,Chris Callison-Burch,年轻一代的David Chiang,Hal Daume III等。暂时想到的就这些人,水平有限,抛砖引玉。相对而言,虽然华人学者近几年在ACL/EMNLP等顶级会议上占据越来越重要的地位,但是对NLP领域具有重要基础性贡献的学者相对还是很少的。

自然语言处理投稿期刊

截至2022年4月7日还没有公布。每年征稿时间有所变动,2021年是11月7日-11日。emnlp论文含金量非常高。EMNLP是自然语言处理领域的顶级会议之一,2020年的EMNLP会议已于11月16日至20日召开。2020年自然语言处理经验方法会议(EMNLP2020)邀请研究者们提交与自然语言处理经验方法相关的、坚实的、原创的且未发布的长论文和短论文。目前大量的学者和同学都进入了最后冲刺阶段。

《现代语言学》可以投你说的。而且周期很短。 是一本关注语言学领域最新进展的国际中文期刊,主要刊登国内外语言学领域最新动态,研究进展及前沿报道、学者讨论和专业评论等多方面的论文。

自然语言处理论文在acl发表

首先想到的不应该是Michael Collins吗……Michael Collins (Columbia), Jason Eisner (JHU), David Yarowsky (JHU)三位师兄弟(David > Michael > Jason)均师承于Upenn的Mitchell Marcus教授,也就是著名的Penn Treebank的作者。这三位是NLP界公认的大神,研究领域各有侧重。collins/eisner对NLP结构学习领域贡献极大,yarowsky早年研究词义消歧,是著名的yarowsky algorithm的作者,后来做了很多跨语言学习的开创性工作。Michael Collins的学生中著名的有Terry Koo (Google), Percy Liang (Stanford), Luke Zettlemoyer (UW);Jason Eisner的得意弟子当首推Noah Smith (CMU->UW);David Yarowsky似乎没有什么特别杰出的学生。Stanford NLP掌门Chris Manning,以《统计自然语言处理基础》一书以及Stanford NLP (toolkit) 而闻名。Dan Jurafsky,著有《语音与语言处理》一书,具有深厚的语言学背景。稍微提一下Manning的学生Richard Socher,近几年声名鹊起,在dl4nlp领域风头一时无两,属年轻一代翘楚。

UCBerkeley的Dan Klein,早些年在无指导学习领域建树颇多。Percy Liang也是他的学生。

UIUC的Dan Roth,ChengxiangZhai(偏IR);MIT的Regina Barzilay;哦,当然还有Brown大学的Eugene Charniak大神(Charniak parser),Brown大学也可算是没落的贵族了,和UPenn有点儿相似。欧洲方面,JoakimNivre (Uppsala University),代表工作是基于转移的依存句法分析。Philipp Koehn,著名机器翻译开源系统Moses作者,14年加入JHU。当然,在工业界也是NLP群星璀璨。Google有Fernando Pereira坐镇,此外还有Ryan McDonald,Slav Petrov等句法分析领域绕不开的名字;而最近Michael Collins也加入了Google;IBM则有Kenneth Church;提一嘴Tomas Mikolov (Facebook)吧,word2vec作者,虽然他严格意义上并不属于NLP核心圈子,但是不得不说,近两年acl/emnlp近半数文章都给他贡献了citation,能做到这种程度的人极少。以上我提到的人都是对NLP领域有重要基础性贡献并经过时间考验的(citation超过或者接近1W),除了以上提到的,还有很多非常优秀的学者,比如Kevin Knight,Daniel Marcu, Mark Johnson,Eduard Hovy,Chris Callison-Burch,年轻一代的David Chiang,Hal Daume III等。暂时想到的就这些人,水平有限,抛砖引玉。相对而言,虽然华人学者近几年在ACL/EMNLP等顶级会议上占据越来越重要的地位,但是对NLP领域具有重要基础性贡献的学者相对还是很少的。

Christoph manning,目前nlp领域公认首席专家

林德康(Dekang Lin):国际计算语言学学会会士(ACL Fellow)。前Google研究院高级管理科学家(senior staff research scientist),在加入Google之前担任加拿大阿尔伯塔大学计算机教授。他在自然语言处理及理解领域总共发表过90余篇论文,其研究总计被引用超过14000次。1985年毕业于清华大学计算机科学与技术专业,后赴英国求学,又转入加拿大阿尔伯塔大学读取计算机博士。先后任职阿尔伯塔大学副教授、正教授,任教期间主要从事自然语言理解研究.研究成果包括一款基于最简原则的英文语法分析器Minipar和一种用非监督学习同义词组的方法。后在美国Google研究院担任高级管理科学家,是Google搜索问答系统的创始人和技术负责人,领导了一个由科学家及工程师组成的团队,将Google搜索问答系统从一个基础研究项目逐步发展推广成为一个每天回答两千万问题的产品。

Julia Hirschberg.据wiki上写,她今年入选美国国家工程院院士。目前职位是哥大cs chair(这中文应该咋翻译,系头)。而且她还是"among the first to combine Natural Language Processing (NLP) approaches to discourse and dialogue with speech research." 方向更偏computational linguistics/ pragmatics. 她的contribution主要在研究语言现象(code switching, hedge and cues, deception, multi-linguistics, prosody, etc.),很多工作都是基于搭建corpus,纯pragmatic研究而非dl/ml模型。她也是最早开始关注discourse 和speech analysis的那批学者。如果有同学做对话要投interspeech,应该很熟悉她的名字。她在国内影响力没有其他人那么大的原因,我猜是因为语言现象的差异。很少听说国内有人关注pragmatics,或者用中文来做pragmatics.

自然语言处理投稿SCI期刊

看你发的是什么期刊,每个期刊都是不一样的。要求也是不一样的。

需要标准的英文书写、严格按照SCI期刊源期刊的格式、创新性的论点、完整的论据在相关领域具有一定的领先性当然还需要耐心的等待 并且有被拒的心理准备,因为不是随便就能写出优秀并且创新性强的文章透彻的研究加创新的思维再加良好的英语写作能力是写出SCI文章的关键

第一步:投稿

sci论文能够在期刊上刊登出来,首先作者sci论文要在期刊上发表,否则不可能将sci论文发表。sci投稿很重要,作者在sci投稿时,一定要注意sci论文与期刊是否匹配,sci论文格式是否符合期刊要求,以及准备好sci论文投稿期刊资料,避免影响sci论文投稿期刊。

第二部:审稿

sci论投稿期刊下一个程序会引入审核。首先,sci期刊编辑会对论文进行初步审核,sci期刊编辑会择优选择出高质量的论文,并推荐给审稿人;然后进入外审,外审专家会针对sci论文给出审稿意见;最后,进入终审。

第三步:修稿

sci论文发表总会出现大大小小的修改,在sci论文修改时,作者一定要注意,根据sci论文审稿人修改意见修改,若有异议直接向审稿人提出解决,直至sci论文修改满足期刊需求。

第四步:录用

经过多次修改的sci论文会通过审核,并给出sci录用,反之则被sci期刊拒稿。

第五步:签约

sci期刊与作者版权签订合同。此时,作者需要向sci期刊支付一定费用,如版面费等,具体以sci期刊实际情况为准。

第六步:校稿

sci论文设计排版后,期刊杂志社编辑会让作者再次对sci论文进行校稿,若有错误,及时向sci期刊杂志社编辑反馈。

第七步:online

online就是线上发表sci论文,通常sci论文会在见刊前先上线,作者可通过网络查询电子版期刊。

第八步:见刊

期刊印刷出版,即发表的SCI论文随着本期期刊印刷出来。

第九步:检索

见刊后的sci论文向数据库送检,一旦收录,即sci论文被成功检索。

science杂志和sci不是一回事,《science》杂志1880年由爱迪生投资1万美元创办,于1894年成为美国最大的科学团体“美国科学促进会”—— AAAS的官方刊物。全年共51期,为周刊,全球发行量超过150万份。 该杂志连同英国的《nature》杂志被誉为世界上两大最顶级杂志,代表了人类自然科学研究的最高水平。SCI是美国《科学引文索引》的英文简称,其全称为:Science Citation Index被SCI收录和在发表是一回事,如果论文被SCI收录,必须投稿到SCI收录的期刊上发表,SCI是选刊不选论文,只要该期刊是SCI收录期刊,您发表在该期刊上的任何类型文章均会被SCI收录(包括特刊、增刊)。

  • 索引序列
  • 自然语言处理论文发表统计
  • 自然语言处理发表论文统计
  • 自然语言处理投稿期刊
  • 自然语言处理论文在acl发表
  • 自然语言处理投稿SCI期刊
  • 返回顶部