欢迎来到学术参考网
当前位置:发表论文>论文发表

qa论文参考文献

发布时间:2023-03-04 02:31

qa论文参考文献

参考文献是文章或著作等写作过程中参考过的文献。

因参考文献的著录格式各刊不尽相同,投稿前作者应注意杂志稿约的有关规定,至少得先看看有关期刊发表的论文的参考文献是如何标注的,以了解有关期刊的参考文献的著录格式,以免出错。许多作者投递的稿件书写格式包括参考文献的著录格式与杂志所要求的不同。

坦率地讲,编辑和审稿专家也是人,工作中多少也有感情因素。如果拿到手中的是一篇书写格式不合要求的文章,别的暂且不论,就书写格式不规范这一条,就足以给编辑留下不好的印象,甚至让编辑做出退稿的决定。

就算最后没有被退稿,此类稿件较书写格式规范的稿件被录用的可能性大大降低。其实作者犯的是一个很低级的错误,让编辑很自然地联想到,该作者不太尊重期刊,还有期刊的编辑以及审稿专家。

因此,作者在投稿前一定要注意期刊参考文献的著录方式,以免产生不必要的负面影响。其实,并不复杂,只要稍稍留意即可。

QA问句解析的七种方法及优化思路

在 《浅谈智能搜索和对话式OS》 中,提到过,人机对话系统的常见场景有三种,分别为: 闲聊型(Chatbot) 、 问答型(QA) 、 任务型(VPA) 。本篇文章所关注的解析方式主要适用于QA系统中的封闭域问答,也即: 将用户问句解析为库中存在的标准问句 。

这里讲的七种方法均为我个人阅读文献后归纳整理而来,并不都是成熟稳定可以商业化的做法,目的只是提出思路以作参考。

基于规则的方法通常在缺乏训练数据的情况下采用,由于与后面的基于统计的方法区别较大,所以记为第零种方法。

基于规则的解析系统通常由两部分构成:一个是『规则库』,解析规则通常为 CFG 上下文无关文法;另一个是『同义词库』,记录了一些标准词的常见同义词。

整个解析就是一个上下文无关文法归约的过程。首先进行自动分词,接着将用户问句中的词依照『同义词库』归约为标准词,然后再将词归约后的问句与『规则库』中的解析规则比对,一旦比对成功,即该条用户问句被成功归约到该条解析规则所对应的标准问句上。

举个例子,同义词库中有这样两条记录:『失败:不上去、不进去、不成功、错误』『登录:登陆、登录』,规则库中有这样一条规则:『账号登录失败:[账号][登录][失败]』。

有一条用户问句是这样的『我账号怎么登陆不上去了』。首先假定分词正确,分词结果为『我|账号|怎么|登陆|不上去|了』;之后进行词归约,归约结果为『我账号怎么登录失败了』;接着与规则『账号登录失败:[账号][登录][失败]』比对,发现比对成功。该条用户问句被成功归约为标准问句『账号登录失败』,我们将系统中『账号登录失败』所对应的标准答案提供给用户,完成交互流程。

这样做在一定程度上能够解决问题,但缺点也特别严重。首先『规则库』与『同义词库』需要人工构建,这需要巨大且长期的人力资源投入。因为语言的表达方式理论上是无限的,而能想到的规则和同义词总是有限的;且随着语言的发展,或是业务的变动,整个规则库和同义词库的维护也需要持续的人力资源投入。

其次,编写规则库需要丰富的经验,对于人员素质的要求极高。因为解析规则的抽象程度相当高,在这样高的抽象程度上,即便编写者具有较丰富的经验(如果没经验会更糟),不同解析规则之间的冲突也是不可避免的,也即同一条用户问句会与多条标准问句的解析规则比对成功,这种情况下的标准问句选择/评分问题,又需要另一套系统来解决。

换个角度,我们可以将依照用户问句找到标准问句的过程看做是输入 Query 得到 Document 的搜索过程。

我们可以尝试采用传统搜索引擎中使用的检索模型来进行用户问句解析。 《浅谈搜索引擎基础(上)》 中提到,BM25 是目前效果最好的检索模型,我们就以 BM25 模型为例来分析。

BM25 模型的计算公式如下:

BM25 模型计算公式融合了 4 个考虑因素: IDF 因子 、 文档词频 、 文档长度因子 和 查询词频 ,并利用 3 个自由调节因子(k1、k2 和 b)对各种因子的权值进行调整组合。

其中,N 代表文档总数,n 代表出现对应单词的文档个数,f 指文档中出现对应单词的词频,qf 是查询语句中对应单词的词频,dl 是文档长度。

利用 BM25 模型可以有三种思路,分别把标准问句、标准问句及标准答案、历史中曾经正确匹配过该标准问句的用户问句集作为 Document,利用公式计算其与用户问句的相似度,然后利用相似度进行排序,取出评分最高的标准问句作为解析结果。

对于这个思路我没有做过实验,不过我推测,这种方法虽然节省了大量的人力,但在这种封闭域的 QA 系统中,其表现应当是不如上一种基于规则的方法,基于检索模型的方法在开放域中的表现会更好。

此外,基于传统检索模型的方法会存在一个固有缺陷,就是检索模型只能处理 Query 与 Document 有重合词的情况,传统检索模型无法处理词语的语义相关性。在上一种方法中,通过人工搭建的同义词库,一定程度上解决了语义相关性的问题。

上文提到,完全基于检索模型的方法无法处理词语的语义相关性。

为了在一定程度上解决这个问题,我们可以利用 LDA/SMT 等方法通过语料挖掘词之间的同义关系,为每个词自动构建一个同义度高于阈值且大小合适的同义词表。在代入检索模型公式进行计算的过程中,若文档中发现所查找关键词的同义词,可以依据同义程度乘以一定权重后纳入到关键词的词频计算之中。

《浅谈智能搜索和对话式OS》 中有对 LDA/SMT 的介绍。

简单的说,LDA 可以合理的将单词归类到不同的隐含主题之中;并且通过计算两篇文章主题向量 θ 的 KL 散度(相对熵),可以得到两篇文章的相似性。SMT 模型出自微软之手,目的即是将翻译模型引入传统检索模型,提高检索模型对语义相关词对的处理能力,该模型也曾被百度采用过以提高搜索引擎返回结果的质量。

word embedding 将词表示为 Distributed Representation,也即低维向量空间中的一个词向量,Distributed Representation 下的词可以利用余弦距离来计算词之间语义的相关关系。与 one-hot Representation 相对应,one-hot Representation 下的词向量的维数与单词表的维数相同,不同词的词向量之间均正交。传统的词集模型(SOW)和词袋模型(BOW)采用的即是 one-hot Representation。

我们可以采用深度学习的方法来得到词 Distributed Representation 的词向量。比如训练一个普通的神经概率语言模型,就可以得到词的词向量,或者参考 word2vec 中的方式,训练 CBOW 或者 Skip-gram 模型。神经概率语言模型、CBOW 以及 Skip-gram 的介绍在 《浅谈智能搜索和对话式OS》 均有提及。

借助百度这张图来讲,利用 DNN 建模的思路如下:

我们需要使用一批 用户问句-标准问句对 的正例和反例作为训练语料,借助上面的方式,同时将正例和反例进行 word embedding 后送入 DNN 中,并采用 Pairwise ranking loss 的方式来建模正例和反例之间的语义差别。

上一种基于 DNN 的方法,在一定程度上已经可以解决词的语义相关性的问题,但对句子中的短距离依赖关系并没有做恰当的处理,比如无法区分『甲到乙』和『乙到甲』。

根据百度的评测结果,CNN 在处理短距离依赖关系上拥有更好的表现。

该图出自李航博士 Convolutional Neural Network Architectures for Matching Natural Language Sentences 中的 ARC-1:

其做法的基本思路是:将问句中的每个词,都做 word embedding,得到每个词所对应的固定长度的词向量,我们将问句表示成一个二维矩阵,每一行代表问句中相应词所对应的词向量。将这个二维矩阵进行多次卷积池化(卷积核的宽度与词向量维数相同,高度多为 2-5),最后得到一个一维特征向量,我们用 CNN 同时处理用户问句和标准问句,得到用户问句和库中标准问句所对应的特征向量。之后将这两个向量拼接起来送入多层感知机,由它来计算两个问句之间的匹配程度。

另外,有人指出,直接将两个特征向量拼接起来送入 MLP 会丢失边界信息,所以我们同时将特征向量 a、特征向量 b 和 aTb 同时送入 MLP 来计算相似度。

ARC-2 结构同样出自李航博士的上述论文:

ARC-2 相较于 ARC-1 的改进在于,ARC-2 尝试让两个句子在得到像 ARC-1 结果那样的高层抽象表示之前就进行相互作用,不再先分别通过 CNN 结构得到各自高层抽象表示。

在 ARC-1 模型中,一张 feature map 仅仅是一个列向量,或者说是一个一维矩阵,若干个列向量并在一起形成了 ARC-1 示意图中的模样(二维),而在 ARC-2 中,一张 feature map 成为了一个二维矩阵,若干个二维矩阵叠在一起形成了 ARC-2 示意图中的模样(三维)。

再之后的卷积、池化过程就与 CV 中 CNN 的卷积、池化过程类似了。与上一种方法类似的,在进行 1D convolution 时,涉及到两个词向量的连接,同样可以采用之前提到的做法来避免边界信息的丢失。

同样有人提出,在 ARC-2 结构中,直接采用传统的 word embedding 方法得到的词向量组成句子作为输入并不是最佳方案,最佳方案是采用已经过了 LSTM 的 hidden state。

我们可以采用 LSTM 结构训练一个 RNN 语言模型,如下图(以普通 RNN 为例):

从图中可以发现,当输出为『e』时,hidden layer 向量中第三分量最大,而输出为『l』时,第一分量最大,输出『o』时,第二分量最大。我们可以将 RNN 的 hidden state 当做 Distributed Representation 的词向量来使用,将其作为 CNN(ARC-2)的输入,经测试可以得到更好的结果。

一个可信度高的分词结果是进行后续解析步骤的基本前提。

在 《浅谈自然语言处理基础(中)》 中,我介绍了一些经典的分词方法,不过都是些较早的研究成果。CRF方法是目前公认的效果最好的分词算法。

CRF 方法的思想非常直接,就是将分词问题看作一个序列标注问题,为句子中的每个字标注词位:

CRF 分词的过程就是对词位标注后,将 B 和 E 之间的字,以及 S 单字构成分词。网上有很多公开的基于 CRF 的分词工具。

至少存在四个角度可以在已有模型的基础上进一步提高解析质量,包括:问句归一化、用户状态、强化学习、多轮对话。

问句归一化的目的是对用户的输入具有较好的容错性。

简单的一些比如:简繁体归一化、全角半角归一化、标点符号处理和大小写归一化。复杂一些的比如汉语错别字的纠正。错别字自动纠正技术的应用非常广泛,而且在提高系统用户体验上能够发挥很大的作用,可以说性价比极高。

错别字纠正通常的做法是训练噪声信道模型。

我们可以对用户状态提取特征,在训练和解析时将其作为附加信息一并作为神经网络的输入。

可以被考虑的用户状态至少包含:

其次可以采用强化学习的方法,通过设计合理的奖赏机制,让解析系统在与环境互动的过程中自主进行策略更新。

强化学习与普通的监督学习方法相比存在两个明显的优点:一个是强化学习策略更新所需要的数据主要来源于与环境的交互/采样,而不是昂贵的人工标记数据;另一个是强化学习所产生的策略是根据奖赏机制自主迭代更新的,会有一些创新的做法,而不仅仅是模仿人类提供的『标准』做法。

QA 问句解析中虽然不像游戏一样拥有『策略\创新玩法』这样的概念,但仍然可以在解析优化中帮助大量节省数据的人工标记开销。

应用强化学习方法的核心问题之一就是奖赏机制的设计,在 QA 的场景下设计奖赏机制,至少可以考虑以下几个角度:

多轮对话技术可以进一步提高与用户对话的连贯性。

我倾向于将多轮对话划分为『封闭域』和『开放域』两个场景,不同场景的实现思路也应该不同。

封闭域场景多轮对话的特点是:系统能解决的问题是一个有限集,多轮对话的目的是将用户引导到我们可以解决的问题上。

而开放域场景多轮对话的特点是:系统需要解决的问题是一个无限集,多轮对话的目的是依照上下文更准确的理解用户的需求。

在这样的指导思想下,封闭域多轮对话的核心思路应该是『填槽』,而开放域多轮对话的核心思路是『上下文替换』和『主体补全』。

《浅谈智能搜索和对话式OS》 中介绍了百度利用 slot filling 技术来做 NLU,并利用『上下文替换』和『主体补全』来提高其 DuerOS 的对话能力的。

而更进一步的,填槽、上下文替换和主体补全的技术基础都是『序列标注』,这里给出百度的两张 PPT:

根据百度的 PPT,采用双向 LSTM + CRF 做序列标注,是一个商业上可行的方法。

选择合适的人工接入时机同样是提高 QA 系统整体表现的方法之一,其核心问题在于平衡用户体验与投入成本。人工接入的越早,用户体验越好,但成本也越高。

这里简单提供蚂蚁金服小蚂答的做法:若系统连续提供给用户三次相同的回答,显示人工接入按钮;若用户连续询问两次客服类问题(比如『我要人工』、『你们客服电话多少』),显示人工接入按钮。

QA 系统的另一个重要组成部分是答案库。

答案录入的优化至少可以从三个角度来思考:

答案形式的多样性非常容易理解,比如小蚂答就支持包括文本、链接、图片、视频在内的多种答案形式。

个性化问题在上文解析优化中已有涉及(考虑用户状态的解析优化),上文的分析思路同样可以应用于答案录入,我们可以对不同注册时长、付费金额不同、进入路径不同等等的用户提供不同的个性化答案。

答案对用户的帮助看起来比较抽象,但也很容易理解。通俗的,我个人以『地图级』、『导航级』、『专车级』来为 QA 系统的答案进行分级:

依照文章最初的人机对话系统场景分类,提供『专车级』答案的 QA 系统,可以被称为 VPA 了。

对于答案库的优化,在答案完备录入(答案形式足够丰富、针对不同用户提供个性化的回答)的前提下,至少存在两个优化点:

上文解析优化中强化学习方法奖赏机制的设计思路也可以被用来发现答案库中存在的问题,因为大多数时候我们还很难明确的区分用户的负面反馈是针对解析系统还是答案本身。

除了从用户负面反馈中发现问题,针对上面的两个优化点,我们还应该有一些预防机制来提前避免这些问题的发生。

比如第一点『答案库中标准答案存在错误』,如果不是录入人员的素质问题,最大的可能性就来源于答案的时效性,也即我们提供给了用户过期的答案。针对这个问题,我们可以在录入答案时特别添加『临时』标签,以标明该答案具有较强的时效性,需要及时更新。

而针对第二点『答案库中缺失某些问题的答案』,最大的可能性来源于突发事件以及业务的变动。比如系统服务宕机、系统上了新版本或者组织了一些运营活动,我们都应该针对这些可能引发用户疑惑的变动,提前准备一些 FAQ 并录入到答案库之中。

此外,当我们录入新问题及其标准答案的时候,需要注意新录入问题与原解析系统的适配性,以避免出现新录入的问题较难被解析系统解析到的情况。可采用的方法比如在录入新问题的同时,主动录入一些不同的问法作为初始训练语料(网易七鱼云客服的做法)。

本人是制药企业一名QA,公司要求写一篇不少于800字的,关于药品质量安全的论文。求高手,指点迷津。

在社会主义市场经济体制逐步完善健全的过程中,由于我国医疗行业百业待举、百废待兴、百业经药。一些国产药厂生产水平的低下、简陋、重复作业和进口药品的大量引进、流通环节过多、致使药品虚高定价,使医药市场竞争异常激烈、恶性循环、临床用药险象环生;在这样药品竞争的市场大潮中,严把药品质量关,杜绝假、冒、伪、劣药品进入医院、进入人体,杜绝医疗事故发生;打击药品购销环节中的不正之风,保证药品质量,做到临床用药的安全、有效、经济,具有很深的重要意义。这几年中,我院在上级各部门的正确领导下,在医院药剂科同志们的共同努力下,做了大量认真细致的基础工作,在医院药品治理方面取得了卓有成效的成绩。
1严格进药标准,果断杜绝假冒伪劣药品流入医院药房
药品既是事关人民群众生命健康的重要物质,又是—种非凡的商品,质量的好坏与人民健康息息相关,假冒伪劣药品不仅不能医治疾病,还会夺去人的生命。医院领导站在保护人民生命健康安全的高度,在药品购进中,严把人情关、进货关、入库关、使用关和不良反应监测关五个关口。果断杜绝假冒伪劣药品进入医院药房,对凡是进入医院药房的药品必须是证照齐备的合法公司和大中型制药厂的合格产品;对凡是新药引进必须严格执行各科室申请、院药事治理委员会讨论、并且按程序引进;对凡是购进的药品,采购药品计划必须经过医院领导审批方可执行;对凡是购进的药品,入库前必须经过药库保管员严格验收、质量合格、数量、规格、价格与计划相符合方准入库;对凡是有质量问题或有效期在半年以内的药品果断退货,不予发放。我院通过抓好五个关口和五必须等一系列措施,从而彻底保证了医院用药的质量,杜绝了假冒伪劣药品进入医院药房。
2强化药品治理,提高药品的有效使用质量
随着医院声誉和医疗水平的不断提高,药品的使用量亦逐年呈大幅度上升势头,医院用药量的不断加大,导致药品仓库的库存量也在不断增加。那么我院是如何在保证药品供给正常的前提下,最大限度地提高药品的有效使用质量呢?首先,医院将不常用品种分成抢救用药和非抢救用药,抢救用要少量贮存,非抢救用药随用随购,高档药品临时申购,用量有多少,采购多少,这样既控制了库存,又保证了用药正常;其次,医院严格执行岗位责任制,加强药品有效期的监管,各个药房定期报告药品有效期情况,对于三个月有效期内的药品一律上报。药剂科组织召开专题会议,重点讨论临近有效期药品,形成处理意见;再次,医院严禁退药,对于非凡情况的,要临床科室根据患者的医疗状态,填写好药品不良反应报告单,并经主管医师签字、药师审核后交回,方能退药,这样既解决了非凡患者的用药,又避免了退药过程中偷换药品的不良现象。同时,还充分利用电子计算机的网络优势,实现药品联网治理,在医院形成一体化的计算机网络治理体系,通过一系列的治理措施,大大提高了我院药品的有效使用质量。
3抓好临床药学工作,提高医疗服务质量
为了科学、合理、安全、经济、有效地用好药品,不断强化药品在临床中的使用治理,提高临床合理用药水平,定期或不定期地组织人员深入临床检查药品的存贮、使用情况。在药剂科人员紧缺的情况下,克服种种困难,抽调二名业务素质高、英语水平高、工作责任心强、思想积极要求上进的执业药师成立临床药学室,深入临床;结合大夫和患者的实际情况,开展用药指导,翻译外文;引进国内外先进临床用药的治理措施和方法,非凡是针对一些临床的新药特药,能够及时与临床大夫沟通、交流;将患者用药后的对症和不良反应及时反馈于厂家,做到药品服务临床,临床反馈信息;从而进一步强化了药剂科开展临床合理用药工作,大大提高了我院的医疗服务质量。
4疏堵结合,打击药品购销中的不正之风
近年来,由于我院用药量的大幅度上升,医药市场的不健全,一些部门和不法药商千方百计,通过多种形式涉足药品经销,一些厂家、药商找关系、走后门、到医院促销。面对一些高利润品种的巨大诱惑,我院领导采取了一系列措施,抑制这些不正之风:首先,院领导以身作则、洁身自好,不借权势介绍厂家、介绍药商,让厂家都能平等竞争招投标;其次,医院利用会议、版报、录像等形式进行职业道德宣传教育,让大家守住清贫、耐住诱惑,在增强自身免疫力的同时,用明查暗访等多种形式,重拳打击药品回扣;再次,对违反医院规定的厂家、药商实行永久停药处理,对违反规定的大夫给予严厉处理,药剂科还规定了廉洁自律守则,要求有关人员一律不得接受厂家、药商的宴请、礼金等等,对有违规者,给予严厉查处,从而防止了直接接触药品采购人员以权谋私的现象。由于疏堵结合,既打击了药品的购销中的种种不正之风,又大大维护了医院的医患关系,促进了我院的各项工作。由于我院采取了一系列的措施,狠抓了药品治理,保证了临床药品质量,确保了临床用药的安全、有效,为医疗技术水平的提高提供了很好的保障,从而使我院从未发生过一起因药品质量而导致的医疗事故,维护了我院三级乙等医院的

美术毕业论文范文急求,如何写

1、论文题目:要求准确、简练、醒目、新颖。
2、目录:目录是论文中主要段落的简表。(短篇论文不必列目录)
3、提要:是文章主要内容的摘录,要求短、精、完整。字数少可几十字,多不超过三百字为宜。
4、关键词或主题词:关键词是从论文的题名、提要和正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。 每篇论文一般选取3-8个词汇作为关键词,另起一行,排在“提要”的左下方。
主题词是经过规范化的词,在确定主题词时,要对论文进行主题,依照标引和组配规则转换成主题词表中的规范词语。
5、论文正文:
(1)引言:引言又称前言、序言和导言,用在论文的开头。 引言一般要概括地写出作者意图,说明选题的目的和意义, 并指出论文写作的范围。引言要短小精悍、紧扣主题。
〈2)论文正文:正文是论文的主体,正文应包括论点、论据、 论证过程和结论。主体部分包括以下内容:
a.提出-论点;
b.分析问题-论据和论证;
c.解决问题-论证与步骤;
d.结论。
6、一篇论文的参考文献是将论文在和写作中可参考或引证的主要文献资料,列于论文的末尾。参考文献应另起一页,标注方式按《GB7714-87文后参考文献著录规则》进行。
中文:标题--作者--出版物信息(版地、版者、版期):作者--标题--出版物信息
所列参考文献的要求是:
(1)所列参考文献应是正式出版物,以便读者考证。
(2)所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。

上一篇:丰田空调毕业论文

下一篇:针灸著名期刊论文