elmo论文期刊

发布时间：2023-03-13 12:33

elmo论文期刊

谎言、夸张、犯罪行为、肆无忌惮的讽刺、另类事实、假新闻……不，我们不是在谈论2017年的政治。这是2017年的科学世界。

过去一年，数百篇科学论文被从专业期刊上撤回。在涉及这些撤回的大多数案件中，原因是作者自己发现的实验方法中的一个无辜但草率的错误。但对于相当多的论文来说，这些撤回反映了科学上的不端行为，以及对数据进行调整或完全编造的不那么无辜的企图。以下是从2017年的五个值得注意的缩回，摘自缩回观察博客。

如此多的缩回，如此少的时间。还有更多被收回的论文几乎进入了2017年的“前五名”名单，比如有几篇试图“证明”疫苗和自闭症之间的联系。其中一篇题为“孤独症谱系障碍和汞研究的系统评估揭示了孤独症研究中的利益冲突和透明度的必要性”，讽刺的是：作者没有揭示他们与参与展示孤独症疫苗关联的组织有关联的事实。

在其他地方为了证明某些期刊会发表任何东西，博主Neuroskeptic设法让四家期刊接受了一项明显虚构的研究，这项研究由卢卡斯·麦戈尔格和安妮特·金撰写，内容是关于“midi chlorians”，即在《星球大战》中赋予绝地力量的智能实体，然后是“撰写科学文章的艺术”，这篇文章发表在《科学通讯》杂志上，被引用近400次。引文是真实的，报纸和期刊（关于通信的“S”）不存在。[“星球大战”科技：8项科幻发明及其现实生活中的对应物]

花了35年的时间，但布鲁斯·勒卡特终于被召唤为猫，他是。勒卡特，作为一只猫，写了一篇相当尖锐的评论大卫刘易斯写的文章，发表在澳大利亚哲学杂志。刘易斯于2001年去世，是一位出生于美国的哲学家，他最著名的观点是模态现实主义，即所有可能的世界都和实际的世界一样真实。也许有些世界，比如说，猫可以写……也就是说，写得通俗易懂……好吧，用猫主人以外的人能理解的语言写得通俗易懂。也许这样一个世界存在于Lewis的脑海里，因为他似乎是勒卡特，写着对自己的批判。（哲学家是一群有趣的人。）

这个35岁的诡计——在猫年里会超过100岁——是刘易斯那一代的一些哲学家知道的一个内部笑话，包括俄亥俄州哥伦布市俄亥俄多米尼加大学的迈克尔多尔蒂。Dougherty目前正在写一本关于科学完整性的书，他要求《华尔街日报》让人们知道Le Catt是刘易斯的化名，这样，如果没有别的东西的话，年轻一代的哲学家就会知道刘易斯在批评自己。假造到三级

如果一篇有假作者和假资助者的论文通过假同行评议的方式发表，那它还会是假的，还是所有的假货都会被注销？似乎是一个哲学问题，最好由布鲁斯·勒卡特处理（见上图）。以下是最广为人知的事实：2015年，一组中国科学家在《分子神经科学》杂志上发表了一篇题为“核仁素通过胶质母细胞瘤中的TGF-β受体I促进TGF-β信号传导启动”的文章（不要太担心这个标题的意思，因为正如前面提到的，没有太多的事实与此相关。）这项研究。）

在2017年6月，杂志收回了这篇文章，因为论文中所述的资金来源不是资金来源；其中一位合著者确认他没有参与论文的研究或写作，对研究一无所知；资深作者确认他没有参与提交过程，并且没有这位学生最终发表了五篇论文，都是关于人们在意大利餐厅自助餐中吃披萨的。

这篇博文现在被删除，引起了许多科学家对Wansink自己研究的质量和完整性的担忧。因此他们进行了调查，发现了多年来Wansink的方法论和统计分析中的许多问题。康奈尔大学也对万辛克的研究进行了调查，发现了所谓的“错误”，但没有发现不当行为。Wansink的50多篇论文正面临着严密的审查，在过去的一年里，Wansink已经纠正并重新发表了至少8篇文章，并收回了4篇文章，其中包括《美国医学会儿科杂志》（JAMA Pediatrics）关于Elmo和Apple的一篇文章。这就是曲奇碎裂的方式。

编者按：2018年9月20日，万辛克从康奈尔大学辞职，此前一项内部调查发现，他“在研究和学术上犯有学术不端行为，包括歪曲研究数据、有问题的统计技术、未能正确记录根据康奈尔大学教务长迈克尔科特利科夫（Michael Kotlikoff）的一份声明，保持研究成果和不恰当的作者身份。

以幽默的方式关注Christopher Wanjek@Wanjek，获取健康和科学方面的每日推文。Wanjek是《工作中的食物》和《坏药》的作者。他的专栏《坏药》定期出现在《生命科学》上

天津医科大学一课题组40多篇SCI论文涉嫌图片重复使用问题

根据网友Elisabeth M Bik提供的论文图片分析情况，天津医科大学天津生命科学研究中心Hua Tang 课题组40多篇SCI论文涉嫌图片重复使用问题，大部分论文由国自然基金资助。具体情况如下：

No、1

论文题目：

Downregulation of TNFRSF19 and RAB43 by a novel miRNA, miR-HCC3, promotes proliferation and epithelial–mesenchymal transition in hepatocellular carcinoma cells

论文作者: LiMing Guo, Rui Gao, JianChen Gan, YaNan Zhu, JunYi Ma, Ping Lv, Yi Zhang, ShengPing Li, Hua Tang

出版期刊及年份： Biochemical and Biophysical Research Communications（2020）

涉嫌图片重复使用情况：

参考链接：

No、2

论文题目： TCDD-induced antagonism of MEHP-mediated migration and invasion partly involves aryl hydrocarbon receptor in MCF7 breast cancer cells

论文作者: Anqi Shan, Ling Leng, Jing Li, Xiu-mei Luo, Ya-jiao Fan, Qiaoyun Yang, Qun-hui Xie, Yang-sheng Chen, Chun-sheng Ni, Li-ming Guo, Hua Tang , Xi Chen, Nai-jun Tang

出版期刊及年份：Journal of Hazardous Materials (2020)

涉嫌图片重复使用情况：

参考链接：

No、3

论文题目： miR-30a reverses TGF-β2-induced migration and EMT in posterior capsular opacification by targeting Smad2

论文作者: Hua Li, Hui Song, Xiaoyong Yuan, Jun Li, Hua Tang

出版期刊及年份： Molecular Biology Reports（2019）

涉嫌图片重复使用情况：

参考链接：

No、4

论文题目： HBV-encoded miR-2 functions as an oncogene by downregulating TRIM35 but upregulating RAN in liver cancer cells

论文作者: Lili Yao , Yadi Zhou , Zhenhua Sui , Yanling Zhang , Yankun Liu , Hong Xie , Huijie Gao , Hongxia Fan , Yi Zhang , Min Liu , Shengping Li , Hua Tang

出版期刊及年份： EBioMedicine (2019)

涉嫌图片重复使用情况：

参考链接：

No、5

论文题目： miR-639 Expression Is Silenced by DNMT3A-Mediated Hypermethylation and Functions as a Tumor Suppressor in Liver Cancer Cells

论文作者: Jing Xiao, Yankun Liu, Fuxia Wu, Ruiyan Liu, Yongli Xie, Qian Yang, Yufeng Li, Min Liu, Shengping Li, Hua Tang

出版期刊及年份： Molecular Therapy (2019)

涉嫌图片重复使用情况：

参考链接：

No、6

论文题目： GRSF1-mediated MIR-G-1 promotes malignant behavior and nuclear autophagy by directly upregulating TMED5 and LMNB1 in cervical cancer cells

论文作者: Zhen Yang, Qi Sun, Junfei Guo, Shixing Wang, Ge Song, Weiying Liu, Min Liu & Hua Tang

出版期刊及年份： Autophagy （2019）

涉嫌图片重复使用情况：

参考链接：

No、7

论文题目： INPP1 up‐regulation by miR‐27a contributes to the growth, migration and invasion of human cervical cancer

论文作者: Pu Li, Qiaoge Zhang, Hua Tang

出版期刊及年份：J Cell Mol Med（2019）

涉嫌图片重复使用情况：

参考链接：

No、8

论文题目： MiR-HCC2 Up-regulates BAMBI and ELMO1 Expression to Facilitate the Proliferation and EMT of Hepatocellular Carcinoma Cells

论文作者: Jianying Yi, Yajie Fan, Le Zhang, Hong Wang, Ting Mu, Hong Xie, Huijie Gao, Min Liu, Shengping Li, Hua Tang

出版期刊及年份：Journal of Cancer （2019）

涉嫌图片重复使用情况：

参考链接：

由于版面问题，本文仅列举了2020年和2019年出版的论文，其实远远不止这个数，一共有40多篇，具体情况可以查看这个链接：

05-ELMo/BERT/GPT-NLP预训练模型

这里可以参考CSDN上的文章-BERT原理和实践：

在解释BERT，ELMO这些预训练模型之前，我们先看一下很久之前的计算机是如何读懂文字的？

每个字都有自己的独特的编码。但是这样是有弊端的，字和字之间的关联关系是无法得知的，比如计算机无法知道dog和cat都是动物，它反而会觉得bag和dog是比较相近的。

所以后来就有了Word Class，将一系列的词进行分类然后让一类词语和一类词语之间更有关联，但是这样的方法太过于粗糙，比如dog，cat，bird是一类，看不出哺乳动物鸟类的区别。

在这个基础之上，我们有了Word Embedding，Word Embedding我们可以想象成是一种soft的word class，每个词都用向量来表示，它的向量维度可能表示这个词汇的某种意思，如图中dog，cat，rabbit的距离相比其他更近。那么word embendding是如何训练出来的，是根据每个词汇的上下文所训练的。

每个句子都有bank的词汇，四个bank是不同的token，但是同样的type。（注：token-词例， type-词型， class-词类 or token是出现的总次数(还有种理解是token是具有一定的句法语义且独立的最小文本成分。 )，type是出现的不同事物的个数。）对于典型的Word Embedding认为，每个词type有一个embedding，所以就算是不同的token只要是一样的type那么word embedding就是一样的，语义也就是一样的。

而事实上并非如此，1,2句bank指的是银行，3,4为水库。所以我们希望让机器给不同意思的token而且type还一致，给予不同的embedding。在这个问题上，之前的做法是从字典中去查找这个词包含几种意思，但是这样的做法显然跟不上现实中词语的一些隐含的含义。比如bank有银行的意思，与money一起是银行的意思，而与blood一起却是血库的意思。

所以我们想让机器今天进一步做到每一个word token都可以有自己的embedding(之前是每个type有一个embedding或者有固定的一个或多个embedding)，那么怎么知道一个word应该有怎样的embedding呢？我们可以取决于该词的上下文，上下文越相近的token它们就会越相近的embedding。比如之前提到的bank，下面两个句子它们的word token的embedding可能是相近的，而和上面的word token的embedding是相远的。

所以我们想使用一种能够基于上下文的Contextual word Embedding来解决一词多义的问题。

这里使用ELMO可以做到这件事情，即每个word token拥有不同的word embedding。(右上角动物是芝麻街(美国公共广播协会（PBS）制作播出的儿童教育电视节目)里的角色)。它是基于RNN的预训练模型，它只需要搜集大量语料(句子)且不需要做任何标注，就可以训练这个基于RNN的语言模型，预测下一个token是什么，学习完了之后就得到了上下文的embedding。因为我们可以将RNN的隐藏层中的某一节点拿出来(图中橙蓝色节点)，它就是输入当前结点的词汇的word embedding。

从当计算识别到，模型训练开始。首先输入"潮水"，然后当作输入输出"退了"，退了当做输入输出"就"。

假设当前要得到”退了”这个词的上下文embedding，首先，因为前边的RNN只考虑到了前文而没有考虑到后文，所以这里就使用了同前文一样的反向的RNN。然后，它从句尾开始进行，比如给它喂”知道”，它就要预测”就”，给它喂”就”，它就要预测”退了”。这时候就不仅考虑每个词汇的前文，还会考虑每个词的后文。最后将正向和逆向得到的两个不同的上下文embedding(因为方向不同训练结果也不一样)拼接起来。

现在我们训练的程度都会越来越深度，当层数增加，这样就会产生Deep的RNN，因为很多层，而且每一层都会产生上下文Embedding，那么我们到底应该使用哪一层？每一层这种深度LSTM中的每个层都可以生成潜在表示(方框处)。同一个词在不同的层上会产生不同的Embedding，那么我们应该使用哪一层呢？ELMo的策略是每一层得到的上下文embedding都要。

在上下文embedding的训练模型中，每个词输入进去都会有一个embedding输出来。但是在ELMo中，每个词汇输入进去，都会得到不止一个embedding，因为每层的RNN都会给到一个embedding，ELMo将它们统统加起来一起使用。以图中为例，这里假设ELMo有两层RNN，这里是将α1(黄色，第一层得到的embedding)和α2(绿色，第二层得到embedding)加起来得到蓝色的embedding，并做为接下来要进行不同任务的输入。

但是这里存在一些问题，α1和α2是学习得到的，而且它是根据当前要进行的任务(如QA，POS of tagging )，然后根据接下来要进行的这些任务一起被学习出来。所以就导致不同任务导向下的α1和α2也不一样。

ELMo的论文中提到，在不同任务下(SRL,Coref,SNLI,SQuAD,SST-5)。蓝色的上下文embedding在经过token(这里为没有经过上下文的embedding)，LSTM1，LSTM2后，它在不同阶段需要的weight也不一样。

BERT相当于是Transformer的Encoder部分，它只需要搜集大量的语料去从中学习而不经过标注(不需要label)，就可以将Encoder训练完成。如果之前要训练Encoder，我们需要通过一些任务来驱动学习(如机器翻译)。

BERT就是句子给进去，每个句子给一个embedding。这里可以回忆下，Transformer的Enoder中有self-attention layer，就是给进去一个sequence，输出也得到一个sequence。

虽然图中使用是用词作为单元进行输入，但是在使用BERT进行中文的训练时，字会是一个更好的选择。比如，我们在给BERT进行输入时，用one-hot给词进行编码，但是词在中文中数量庞大，会导致维度过高。但是，字的话相对会少很多，特别是中文(大约几千个，可以穷举)。这样以字为单位进行输入会占很大优势。

共有两种方法，一种是Mask LM遮盖语言模型，另一种是Next Sentence Prediction下一句预测。

下面用上图的例子来理解BERT是怎么样来进行填空的： 1）这里假设在所有句子中的词汇的第2个位置上设置一个； 2）接下来把所有的词汇输入BERT，然后每个输入的token都会得到一个embedding； 3）接下来将设置为的embedding输入到Linear Multi-class Classifier中中，要求它预测被的词汇是哪个词汇？

但是这个Linear Multi-class Classifier它仅仅是一个线性分类器，所以它的能力十分弱，这也就需要在之前的BERT模型中需要将它的层数等参数设计的相当好，然后得到非常出色的representation，便于线性分类器去训练。那么我们怎么知道最后得到的embedding是什么样的呢？如果两个下的词汇(输入时设置的和最后预测的)都放回原来的位置而且没有违和感(就是语句还算通顺)，那它们就有类似的embedding(比如退下和落下)。

如图中，给定两个句子1)醒醒吧和 2)你没有妹妹。其中特殊符号[SEP]是告诉BERT两个句子的分隔点在哪里。

特殊符号[CLS]一般放在句子的开头，它用来告诉BERT从这开始分类任务，[CLS]输入BERT后得到embedding然后通过Linear Binary Classifier得出结果说明：经过BERT预测后现在我们要预测的两个句子是接在一起 or 不应该被接在一起。

这里可能会有疑问，为什么不将[CLS]放在句尾，等BERT训练完两个句子再输出结果？

对于上图中的任务，BERT现在要做的事情就是给定两个句子，让BERT输出结果这两个句子是不是应该接在一起？所以在语料库的大量句子中，我们是知道哪些句子是可以接在一起的，所以也需要我们告诉BERT哪些句子是接在一起的。

Linear Binary Classifier和BERT是一起被训练的，通过预测下一句这个任务，我们就可以把将BERT部分的最优参数训练出来。

现在我们知道了任务一和任务二，在原论文中两种任务是要同时进行的，这样才能将BERT的性能发挥到最佳。

现在我们知道了BERT要做什么事情，那么我们要如何去使用它？共有四种方法。论文中是将【BERT模型和接下来你要进行的任务】结合在一起做训练。

第一种，假设当前任务是Input一个sentence，out一个class，举例来说输入一句话来判断分类。

训练流程：1）将做要分类的句子丢给BERT； 2）需要在句子开始加上分类的特殊符号，这个特殊符号经过BERT输出的embedding经过线性分类器，输出结果为当前的句子属于的类别是真还是假。BERT和Linear Classifier的参数一起进行学习； 3）这里的Linear Classifier是Trained from Scratch是白手起家从头开始，即它的参数随机初始化设置，然后开始训练； 4）而BERT则是加上Fine-tune微调策略(一种迁移学习方式*)，例如Generative Pre-trained Transformer(OpenAI GPT生成型预训练变换器)(Radford等，2018)，引入了最小的任务特定参数，并通过简单地微调预训练参数在下游任务中进行训练。

*这里不得不提一下迁移学习中的Fine-tune，这里可以参考csdn的一篇文章：

( ) 第二种，假设当前任务是input一个sentence，输出这个句子中的每个词汇属于正例还是负例。举例现在的任务是slot filling填槽任务(填槽指的是为了让用户意图转化为用户明确的指令而补全信息的过程)（另一种解释是从大规模的语料库中抽取给定实体（query）的被明确定义的属性（slot types）的值（slot fillers））(槽可以理解为实体已明确定义的属性)，输入的句子是 arrive Taipei on November 2nd输出的槽是other dest on time time 训练流程： 1）将句子输入BERT，句子中的每个词汇都会映射出一个embedding； 2）每个词汇的embedding输入Linear Classifier，输出结果； 3）Linear Classifier 白手起家和Bert微调的方式一起去做学习。

第三种，假设当前任务是input输入两个句子，输出class。举例现在要进行自然语言预测，让机器根据premise前提，预测这个hypothesis假设是True还是False还是unknown不知道。实际上，我们可以把这个任务当成三分类问题。训练过程： 1）在一个sentence前设置特殊符号[CLS]，然后在要输入的两个sentence中间设置[SEP]分隔符号； 2）将两个sentence连同特殊符号一起输入到BERT中； 3）将[CLS]输入BERT后得到的embedding，再把它输入linear Classifier中，得到class。

如图所示，假设gravity的token序号是17，即，我们现在有一个问题通过QA Model后得到的s=17，e=17，那么答案就是为gravity；同理，假设within a cloud的序号顺序是77到79，即到 ,我们现在有一个问题通过QA Model后得到的s=77，e=79，那么答案就是为within a cloud。

这张图显示了BERT从0-24层的层数在针对不同的NLP任务上的表现。

而所谓的GPT,它其实就是Transformer的Decoder。

我们简单的描述下GPT的训练过程：这里我们input这个token和潮水，想要GPT预测输出“退了”这个词汇。

1）首先输入[BOS]（begin of sentence）和潮水，通过Word Embedding再乘上matrix W变成a 1到a 4，然后把它们丢进self-attention 层中，这时候每一个input都分别乘上3个不同的matrix产生3个不同的vector，分别把它们命名为q，k，v。

q代表的是query (to match others用来去匹配其它的向量) k代表的是key (to be matched用来去被query匹配的向量) v代表的是value(information to be extracted用来被抽取的信息的向量)

2）现在要做的工作就是用每个query q 去对每个 key k做attention（吃2个向量，输出就是告诉你这2个向量有多么匹配或者可以说输入两个向量输出一个分数\alpha（而怎么去吃2个向量output一个分数，有很多不同的做法））。这里要预测潮水的下一个词，所以乘，乘上 , 乘上再经过soft-max分别得到到。

3)我们用和每一个v相乘，和相乘加上和相乘。以此类推并相加，最终得到。

4)然后经过很多层的self-attention，预测得到”退了”这个词汇。

同理，现在要预测”退了”的下一个词汇，按照前面的流程可以得到，然后经过很多层的self-attention层，得到”就”这个词汇。

GPT的神奇之处在于它可以在完全没有训练数据的情况下，就可以做到阅读理解，摘要，翻译。折线图中显示了它在参数量上升的情况下，F1的值的效果。

ormer的问题： word Embedding 无上下文监督数据太少

解决方法： Contextual Word Embedding

( E mbeddings from L anguages Mo del) - 多层双向的LSTM的NNLM - RNN-based language models(trained from lots of sentences) ELMo的问题： Contextual Word Embedding作为特征不适合特定任务

GPT的改进根据任务Fine-Tuning 使用Transformer替代RNN/LSTM

OpenAI GPT的问题：单向信息流的问题 Pretraining(1)和Fine-Tuning(2)不匹配解决办法： Masked LM NSP Multi-task Learning Encoder again

Tips： - 使用中文模型 - max_seq_length可以小一点，提高效率 - 内存不够，需要调整train_batch_size - 有足够多的领域数据，可以尝试Pretraining

上一篇：中级论文答辩现场

下一篇：毕业论文视频教学

elmo论文期刊