论文结构化阅读笔记模板

2个回答默认排序

默认排序

按时间排序

小v爱火锅

已采纳

【阅读笔记一】 Lattice-Based Recurrent Neural Network, Encoders for Neural Machine Translation （ Jinsong Su et al. ）摘要介绍： NMT神经机器翻译很大程度上依赖于词级建模来学习输入句子的语义表示。对于处理没有自然语言分隔符的语言（比如中文），需要首先进行标记，这就产生了两个问题：1）为源句子模型找到最优标记粒度的难度很大，粗粒度导致数据稀疏，细粒度导致有用信息丢失；2）难度大就容易造成错误，产生的错误会带到NMT的编码器中去，影响源句子的表示。基于这两个问题，为了更好地进行源句建模，有必要向NMT提供多个标记化，而不是单一的标记化序列。本文提出了一种基于词格的递归神经网络 NMT编码器：1）以压缩编码多个标记字格作为输入；2）并在前面的时间步骤中学习从任意多个输入和隐藏状态生成新的隐藏状态。字格是许多标记化的压缩表示，基于词格的编码器不仅减轻了最佳标记方式的标记错误( 1-best tokenization errors)的负面影响，而且更具有表达性和嵌入输入句子的灵活性。 NMT特点：传统的统计机器翻译模拟管道(pipeline)中源语言和目标语言之间的潜在结构和对应关系， NMT则是训练了一个统一的编码-解码神经网络，其中编码器将输入的句子映射成固定长度的向量，解码器从编码的向量生成翻译。基于词格的递归神经网络 NMT ：本文调查和比较了两个基于词格的RNN编码器： 1).浅度词格GRU编码器：基于来自多个采用标准GRU体系结构的标记的输入和隐藏状态的组合； 2).深度词格GRU编码器：它学习并更新门、输入和隐藏状态的特定标记向量（tokenization-specific vector），然后为当前单元生成隐藏状态向量。在这两种编码器中，可以同时利用许多不同的标记来进行输入句子建模。结论：与标准的RNN编码器相比，本文的编码器同时利用输入和前面的隐藏状态，依赖于多个标记来为源语句建模。因此，它们不仅减少了1-best tokenization errors的传播，而且比标准编码器更具表现力和灵活性。汉英互译的实验结果表明，本文的编码器在各种基线上都有显著的改进。展望：本文的网络结构依赖于源句的词格。扩展模型，将分割模型合并到源句表示学习中。通过这种方式，符号化和翻译可以相互协作。此外，更好的组合策略来改进编码器。验证实验：为了验证所提出的编码器的有效性，我们对汉英翻译任务进行了实验。实验结果表明: (1)利用词界信息学习准确嵌入输入的汉语句子是十分必要的; (2)基于词格的RNN编码器在NMT方面优于标准RNN编码器。据我们所知，这是第一次尝试在词格上构建NMT。实验部分： 1.数据集对NIST汉英翻译任务中提出的编码器进行了评估：训练数据集：LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T07、LDC2004T08和LDC2005T06中提取的125万对句子，其中中文单词2790万，英文单词3450万。验证数据集：NIST 2005数据集测试数据集：NIST 2002、2003、2004、2006和2008数据集。使用斯坦福大学发布的toolkit2在CTB、PKU和MSR语料库上训练分词器以获得汉语句子格。为了有效的训练神经网络，我们使用了中、英文最常用的50K单词作为我们的词汇。CTB、北大、MSR、lattice语料库中的汉语词汇占、、、，英语词汇占。2.实验结果：字符覆盖比率：翻译质量：使用1-best分词的NMT解码实验：模型： Word Lattice Lattice模型完全独立于分词，但由于可以在上下文中自由选择词汇来消除歧义，因此在使用单词信息时更加有效。两种基于词格的RNN 编码器【阅读笔记二】基于 BLSTM 的命名实体识别方法（ fenget al. ）摘要介绍：对于（1）监督学习语料不足；（2）RNN 无法很好地处理长距离依赖问题, 并且训练算法存在梯度消失或爆炸问题基于三点考虑：（1）文本是否被识别为命名实体与其上下文有关, 也与构成命名实体的每个字及字序有关；（2）考虑标注序列中标签间的相关性, 对本文提出的模型的代价函数进行约束, 在小的训练数据上尽可能挖掘有价值的信息 , 以提高命名实体识别的效果；（3）传统识别方法中的人工特征和领域知识对命名实体的识别效果的提升有重要影响, 但设计人工特征和获取领域知识的代价昂贵。因此，本文提出了一种利用神经网络模型解决命名实体识别问题的有效方法, 该方法不直接依赖人工特征和外部资源, 只是利用了少量的监督数据、领域知识和大量的无标注数据, 解决了目前的机器学习方法中过度依赖人工特征和领域知识及语料不足的问题。本文提出的命名实体识别方法中融入了词语的上下文信息、词语的前后缀信息和领域词典, 将这种信息特征化为词的分布表示特征; 考虑了词语的标签之间的约束关系, 进一步提高了识别的效果。展望：本文只是顺序地读取数据对命名实体进行识别, 每个词语对命名实体的影响同等重要, 并没有考虑不同的词语对命名实体的不同影响,如何将深度学习的注意力机制引入本文的模型中、重点关注对命名实体识别有重要影响的词语, 是进一步需要解决的问题。实验部分：数据集： DataSet1（大规模无标注语料）、DataSet2（标注语料）、DataSet3（命名实体识别标注语料） DataSet4（本文将DataSet2 和DataSet3 中的标签进行删除, 并拆分为字符序列数据, 得到的数据集） DataSet5（选择搜狗输入法词库中的部分数据[, 包括常见的中国人名、中国地名、国家机关组织机构名, 拆分为字符序列数据）样本分类：TP FP TN FN 评价指标：精确率(Precision,P)、召回率 (Recall, R) 、F 测度值 (F-score,F) 、敏感度 (Sensitivity, Sent) 、特异性 (Specificity,Spec) 、1-特异性(1GSpec) 、准确率(Accuracy,Acc) 实验结果：实验影响因素：地名和机构名这两类命名实体的长度通常较人名长, 而且构成复杂,由基于上下文的词向量和BLSTM_Ec 模型训练得到的词向量对识别效果有积极的影响。人名词语长度较短、人名的姓氏和名字没有较强的约束关系、人名词典中的人名与待识别的文本中的人名实体没有很强的相关性, 因此前后缀信息、标签约束信息和领域知识对人名这类实体有一定的影响, 但影响不大。模型：其中，Ec为字符级向量；Ew为基于上下文词语的词向量。【阅读笔记一】 An Empirical Study of Automatic Chinese Word Segmentation for Spoken Language Understanding and Named Entity Recognition （ Luo et al. ）背景：在英语文本中，句子是用空格分隔的单词序列。中文句子则是没有自然分隔符的字符串（其他类似语言：阿拉伯语、日语），汉语处理任务的第一步是识别句子中的单词序列，在合适的位置作边界标记。在中文文本中分词可以一定程度消歧义。分词通常被认为是许多中文自然语言处理任务的第一步，但它对这些后续任务的影响相对研究较少。摘要介绍：目前主要存在问题是1）在对新数据应用现有的分词器时的不匹配问题；2）一个更好的分词器是否能产生更好的后续NLP任务性能。对于以上问题，本文提出三种方法： 1 ）在后续的任务中使用分词输出作为额外的特征，这比使用分词单元更能抵抗错误传播。 2 ）使用从后续任务训练数据中获得的部分标记数据对现有的分词器进行改进，进一步提高了端到端的性能。 3 ）利用了分词输出的 n-best 表，使得后续的任务对分词错误不那么敏感。中文分词的任务主要是：1）识别句子中的单词序列。2）在合适的位置标记边界。总结：本文提出三种方法：利用分词输出作为附加特征；进行局部学习自适应；利用n-best表。另外还研究了CWS在三种不同情况下的影响: 1）当域数据没有单词边界信息时，由公共域外数据构建的单词分段器能够提高端到端性能，将其与从人类注释派生的部分标记数据进行调整可以进一步提高性能。2）将n-best词分段边缘化会带来进一步的改进，当领域分词可用时，使用领域数据本身训练的词分段者有更好的CWS性能，但不一定有更好的端到端任务性能。一个在训练和测试数据上表现更平衡的词段器可以获得更好的端到端性能。3）在手工分割测试数据时，分词确实对任务有很大帮助，分词可以减少后续NLP任务的模糊性。未来可能方向：顺序堆叠两层CRF，一层用于分词，一层用于后续任务。除了序列标记问题，探讨更多后续任务。实验（ NER 部分）：对于使用的NER数据，域训练和测试数据都有词界信息。这里讨论用域内数据训练的分词器和公开可用数据之间的区别(第二种情况)。分词性能与端到端后续任务之间的关系。实验数据：使用第三个SIGHAN中文处理Bakeoff的基准NER数据(SIGHAN-3) (Levow, 2006)。训练集数据：46364句，测试集数据：4365句。这些数据都被标注了单词边界和NER信息。实验结果：

147 评论 1小时前发布

谁的吴邪

论文地址：前置文章：10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云，克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知，之前的点云修复方法是输入不完整的点云，输出完整的点云，但这样会导致原有信息的缺失。这篇文章提出PF-Net，主要特点有三个：

网络的整体结构如下：

网络详细推理步骤如下：

损失函数使用完整性损失和对抗损失的加权平均，完整性损失使用L-GAN中提出的CD距离：

对抗损失使用GAN中常见的损失函数

感觉这篇文章对多尺度的运用非常极致，在编码器、解码器和CMLP中都应用了这种思想，最后的效果也非常不错，很值得借鉴。

论文地址：

PointNet提出一种基础的网络结构，可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前，点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式，然后应用2D/3D CNN进行处理，但这样引入了多余的体积，效率不高。本文是第一个直接使用点云数据的神经网络。（其实可以这样类比，在二维图像处理中，假设图像是二值化的，传统方法是将这个图像直接丢到CNN里面，但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面，对稀疏数据会有比较好的性能，但因为以下三个问题导致直接使用坐标信息比较困难）由于点云的排列是无序的（可以想象，点云中任意一点排在前面对点云的表达都是相同的）、点云之间是有相互作用的（相邻的点云才能构成形状）、点云在某些变换下具有不变性（比如旋转不会改变点云的类别）这些特性，要求神经网络既能处理无序的数据，又能捕捉全局的结构特征，同时对刚性变换不敏感。基于这些条件，作者提出了如下的网络结构：

可以简要分析一下网络的工作流程，以点云分类问题为例：

感觉网络的结构虽然简单，但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中，也有时候必须用到坐标信息或者一些标量特征，这篇文章的方法对于怎样将这些特征融合进CNN里面也有一定的启发意义。

论文地址：

这篇文章的主要工作是：

首先来看衡量两个点云相似程度的指标部分，作者首先给出了两个距离，EMD和CD：

在计算上，CD更为简便，而且EMD是不可导的。

基于这两种距离，作者引入了三种衡量两个点云相似程度的指标：JSD、Coverage和MMD：

定义了指标后，就可以实现自动编码器和生成模型了。作者提到了四种结构，分别是：

作者同时验证了AE的一些其他功能，比如如果给AE的编码器输入不完整的点云数据，即可训练得到点云复原的模型。使用SVM对低维表示进行分类，即可进行点云分类的任务，证明AE在点云数据形式中的潜在应用较为广泛。

论文地址：

PointNet++针对PointNet提取局部信息能力不强的弊端，提出了一种层次神经网络，可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息，然后将每个小部分整合成较大的部分，提取更高层次的信息。类似于CNN中卷积和下采样的思想。首先来看网络结构图：

网络大概可以分为两个部分，左边是层次的点云特征提取网络，右边是针对不同任务的解码网络。特征提取分为若干个set abstraction模块，每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后，对不同的任务需要不同的解码网络。对分类网络来说比较简单，使用全连接即可。对分割网络来说，由于对每个点都需要输出数值，则需要类似上采样的操作。具体的实现作者使用了插值的方法，将较少的点插值到较多的点上去。首先找到插值的目标坐标，然后寻找K个距离最近的已知点，以距离的倒数作为权重，将K个点的特征做加权平均，作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接，即可得到最终特征（类似U-Net的skip connection）。公式如下：

感觉这篇文章和PF-Net的思想差不多，都是希望提取多尺度的特征。但是思路不一样，都值得借鉴。

123 评论 12小时前发布

论文结构化阅读笔记模板

2个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序