聊天机器人论文参考文献

3个回答默认排序

默认排序

按时间排序

鼠weakorz

已采纳

机器人足球是高新技术与体育竞技相结合的产物，是用机器人踢球的一种足球比赛项目。它最大的魅力就是通过足球比赛来公正合理地评价综合技术水平。在机器人足球项目里包含了21 世纪人类要攻克的众多技术难题，如计算机视觉技术、无线通信网络技术、行为决策技术、智能控制技术、机电一体化技术、计算机仿真技术、人工生命技术、对策论及社会组织学等多学科综合技术。本文首先介绍了足球机器人比赛（FIRA和Robocup）的背景和国内外现状，然后具体的介绍FIRA中的项目和主要关注的SimuroSot的比赛规则，操作要点。在此基础上，学习SimuroSot平台的策略表达方式，划分角色，并建立每个角色的攻防策略，以此建立完整的SimuroSot 5V5平台的攻防策略，在策略表达方式，该模型使用C语言编程，使用Visual Studio软件编写程序，并导出DLL策略文件加载入平台进行测试，不断修改，提高攻防精度和策略的完整度。在攻防策略方面，根据所有足球机器人的位置不同，制定所有机器人的角色定制，并且制定出针对不同场上情况的攻防策略，本文采用了足球运动中的角色划分，为更好的衡量他们的运动轨迹和量化数值给出更好的依据。关键词：足球机器人，FIRA，Robocup，SimuroSot 5V5，仿真，策略程序The robot soccer is the product which the high technology and new technology and sports athletics unify, is one kind of football competition project which plays soccer with the robot. It biggest charm is appraises the comprehensive technical level reasonably fairly through the football competition. Has contained the numerous technical difficult problems which in the robot soccer project the 21st century humanity wants to attack and capture, like the computer vision technology, the wireless communication networking, the behavior decision-making technology, the intelligent control technology, the integration of machinery technology, the computer simulation technology, the artificial life technology, the countermeasure concern the social histology and so on multi-disciplinary comprehensive technologies. this article first introduced soccer robot competition (FIRA and Robocup) the background and the domestic and foreign present situations, then in the concrete introduction FIRA project and the main attention's SimuroSot contest rule, operates the main point. Based on this, studies the SimuroSot platform the strategy turn of expression, the division role, and establishes each role the attack and defense strategy, by this establishment complete SimuroSot the 5V5 platform's attack and defense strategy, in the strategy turn of expression, this model uses the C language programming, uses Visual the Studio software write program, and derives the DLL strategy document to load into the platform to carry on the test, revises unceasingly, increases the attack and defense precision and strategy completeness. in the attack and defense strategy aspect, is different according to all soccer robot's position, the formulation all robot's role has custom-made, and formulates in view of the different field on the situation attack and defense strategy, this article has used in the soccer sports role division, for better weighs their path and the quantification value gives a better basis. key word: Soccer robot, FIRA, Robocup, SimuroSot 5V5, simulation, strategy procedure（可以吗，望采纳）

338 评论 2小时前发布

可可奈美

数据预处理

模型能聊的内容也取决于选取的语料。如果已经具备了原始聊天数据，可以用SQL通过关键字查询一些对话，也就是从大库里选取出一个小库来训练。从一些论文上，很多算法都是在数据预处理层面的，比如Mechanism-Aware Neural Machine for Dialogue Response Generation就介绍了，从大库中抽取小库，然后再进行融合，训练出有特色的对话来。

对于英语，需要了解NLTK，NLTK提供了加载语料，语料标准化，语料分类，PoS词性标注，语意抽取等功能。

另一个功能强大的工具库是CoreNLP，作为 Stanford开源出来的工具，特色是实体标注，语意抽取，支持多种语言。

下面主要介绍两个内容：

中文分词

现在有很多中文分词的SDK，分词的算法也比较多，也有很多文章对不同SDK的性能做比较。做中文分词的示例代码如下。

# coding:utf8''' Segmenter with Chinese '''import jieba import langiddef segment_chinese_sentence(sentence):'''Return segmented sentence.'''seg_list = (sentence, cut_all=False)seg_sentence = u" ".join(seg_list)return ().encode('utf8')def process_sentence(sentence):'''Only process Chinese Sentence.'''if (sentence)[0] == 'zh':return segment_chinese_sentence(sentence)return sentenceif __name__ == "__main__":print(process_sentence('飞雪连天射白鹿'))print(process_sentence('I have a pen.'))

以上使用了langid先判断语句是否是中文，然后使用jieba进行分词。

在功能上，jieba分词支持全切分模式，精确模式和搜索引擎模式。

全切分：输出所有分词。

精确：概率上的最佳分词。

所有引擎模式：对精确切分后的长句再进行分词。

jieba分词的实现

主要是分成下面三步：

1、加载字典，在内存中建立字典空间。

字典的构造是每行一个词，空格，词频，空格，词性。

上诉书 3 n上诉人 3 n上诉期 3 b上诉状 4 n上课 650 v

建立字典空间的是使用python的dict，采用前缀数组的方式。

使用前缀数组的原因是树结构只有一层 - word:freq，效率高，节省空间。比如单词"dog", 字典中将这样存储：

{"d": 0,"do": 0,"dog": 1 # value为词频}

字典空间的主要用途是对输入句子建立有向无环图，然后根据算法进行切分。算法的取舍主要是根据模式 - 全切，精确还是搜索。

2、对输入的语句分词，首先是建立一个有向无环图。有向无环图, Directed acyclic graph (音 /ˈdæɡ/)。

【图 3-2】 DAG

DAG对于后面计算最大概率路径和使用HNN模型识别新词有直接关系。

3、按照模式，对有向无环图进行遍历，比如，在精确模式下，便利就是求最大权重和的路径，权重来自于在字典中定义的词频。对于没有出现在词典中的词，连续的单个字符也许会构成新词。然后用HMM模型和Viterbi算法识别新词。

精确模型切词：使用动态规划对最大概率路径进行求解。

最大概率路径：求route = (w1, w2, w3 ,.., wn)，使得Σweight(wi)最大。Wi为该词的词频。

更多的细节还需要读一下jieba的源码。

自定义字典

jieba分词默认的字典是:1998人民日报的切分语料还有一个msr的切分语料和一些txt小说。开发者可以自行添加字典，只要符合字典构建的格式就行。

jieba分词同时提供接口添加词汇。

Word embedding

使用机器学习训练的语言模型，网络算法是使用数字进行计算，在输入进行编码，在输出进行解码。word embedding就是编解码的手段。

【图 3-3】 word embedding, Ref. #7

word embedding是文本的数值化表示方法。表示法包括one-hot，bag of words，N-gram，分布式表示，共现矩阵等。

Word2vec

近年来，word2vec被广泛采用。Word2vec输入文章或者其他语料，输出语料中词汇建设的词向量空间。详细可参考word2vec数学原理解析。

使用word2vec

安装完成后，得到word2vec命令行工具。

word2vec -train "data/" \-output "data/" \-cbow 1 \-size 100 \-window 8 \-negative 25 \-hs 0 \-sample 1e-4 \-threads 20 \-binary 1 \-iter 15

-train "data/" 表示在指定的语料库上训练模型

-cbow 1 表示用cbow模型，设成0表示用skip-gram模型

-size 100 词向量的维度为100

-window 8 训练窗口的大小为8 即考虑一个单词的前八个和后八个单词

-negative 25 -hs 0 是使用negative sample还是HS算法

-sample 1e-4 采用阈值

-threads 20 线程数

-binary 1 输出model保存成2进制

-iter 15 迭代次数

在训练完成后，就得到一个model，用该model可以查询每个词的词向量，在词和词之间求距离，将不同词放在数学公式中计算输出相关性的词。比如：

vector("法国") - vector("巴黎) + vector("英国") = vector("伦敦")"

对于训练不同的语料库，可以单独的训练词向量模型，可以利用已经训练好的模型。

其它训练词向量空间工具推荐：Glove。

Seq2Seq

2014年，Sequence to Sequence Learning with Neural Networks提出了使用深度学习技术，基于RNN和LSTM网络训练翻译系统，取得了突破，这一方法便应用在更广泛的领域，比如问答系统，图像字幕，语音识别，撰写诗词等。Seq2Seq完成了【encoder + decoder -> target】的映射，在上面的论文中，清晰的介绍了实现方式。

【图 3-4】 Seq2Seq, Ref. #1

也有很多文章解读它的原理。在使用Seq2Seq的过程中，虽然也研究了它的结构，但我还不认为能理解和解释它。下面谈两点感受：

a. RNN保存了语言顺序的特点，这和CNN在处理带有形状的模型时如出一辙，就是数学模型的设计符合物理模型。

【图 3-5】 RNN, Ref. #6

b. LSTM Cell的复杂度对应了自然语言处理的复杂度。

【图 3-6】 LSTM, Ref. #6

理由是，有人将LSTM Cell尝试了多种其它方案传递状态，结果也很好。

【图 3-7】 GRU, Ref. #6

LSTM的一个替代方案：GRU。只要RNN的Cell足够复杂，它就能工作的很好。

使用DeepQA2训练语言模型

准备工作，下载项目：

git clone cd DeepQA2 open # 根据安装依赖包

DeepQA2将工作分成三个过程：

数据预处理：从语料库到数据字典。

训练模型：从数据字典到语言模型。

提供服务：从语言模型到RESt API。

预处理

DeepQA2使用Cornell Movie Dialogs Corpus作为demo语料库。

原始数据就是和。这两个文件的组织形式参考

deepqa2/dataset/是将这两个文件处理成数据字典的模块。

train_max_length_enco就是问题的长度，train_max_length_deco就是答案的长度。在语料库中，大于该长度的部分会被截断。

程序运行后，会生成文件，它加载到python中是一个字典：

word2id存储了{word: id}，其中word是一个单词，id是int数字，代表这个单词的id。

id2word存储了{id: word}。

trainingSamples存储了问答的对话对。

比如 [[[1,2,3],[4,5,6]], [[7,8,9], [10, 11, 12]]]

1，2，3 ... 12 都是word id。

[1,2,3] 和 [4,5,6] 构成一个问答。 [7,8,9] 和 [10, 11, 12] 构成一个问答。

开始训练

cp # modify keys python deepqa2/

是配置文件, 根据进行修改。训练的时间由epoch，learning rate, maxlength和对话对的数量而定。

deepqa2/大约100行，完成数据字典加载、初始化tensorflow的session，saver，writer、初始化神经元模型、根据epoch进行迭代，保存模型到磁盘。

session是网络图，由placeholder, variable, cell, layer, output 组成。

saver是保存model的，也可以用来恢复model。model就是实例化variable的session。

writer是查看loss fn或者其他开发者感兴趣的数据的收集器。writer的结果会被saver保存，然后使用tensorboard查看。

Model

Model的构建要考虑输入，状态，softmax，输出。

定义损耗函数，使用AdamOptimizer进行迭代。

最后，参考一下训练的loop部分。

每次训练，model会被存储在 save路径下，文件夹的命名根据机器的hostname，时间戳生成。

提供服务

在TensorFlow中，提供了标准的serving模块 - tensorflow serving。但研究了很久，还专门看了一遍《C++ Essentials》，还没有将它搞定，社区也普遍抱怨tensorflow serving不好学，不好用。训练结束后，使用下面的脚本启动服务，DeepQA2的serve部分还是调用TensorFlow的python api。

cd DeepQA2/save/ cp python runserver

测试

POST /api/v1/question HTTP/ Host: Content-Type: application/json Authorization: Basic YWRtaW46cGFzc3dvcmQxMjM= Cache-Control: no-cache{"message": "good to know"}response {"rc": 0,"msg": "hello"}

serve的核心代码在serve/api/中。

使用脚本

scripts/ 启动训练

scripts/ 启动Tensorboard

scripts/ 启动服务

对模型的评价

目前代码具有很高的维护性，这也是从DeepQA项目进行重构的原因，更清晰的数据预处理、训练和服务。有新的变更可以添加到deepqa2/models中，然后在和变更一下。

有待改进的地方

a. 新建models/, 使用dropout。目前DeepQA中已经使用了Drop.

b. tensorflow 中已经提供了seq2seq network，可以更新成tf版本.

c. 融合训练，目前model只有一个库，应该是设计一个新的模型，支持一个大库和小库，不同权重进行，就如Mechanism-Aware Neural Machine for Dialogue Response Generation的介绍。

d. 代码支持多机多GPU运行。

e. 目前训练的结果都是QA对，对于一个问题，可以有多个答案。

f. 目前没有一个方法进行accuracy测试，一个思路是在训练中就提供干扰项，因为当前只有正确的答案，如果提供错误的答案（而且越多越好），就可以使用recall_at_k方法进行测试。

机器人家上了解到的，希望对你有用

153 评论 12小时前发布

神仙鱼左倾45

人工智能技术无论是在过去。认知心理学和人工智能。使得人工智能和心理学从最初就紧密地联系在一起。以下是我整理的人工智能的期末论文的相关资料，欢迎阅读!

摘要：人工智能技术无论是在过去。认知心理学和人工智能。使得人工智能和心理学从最初就紧密地联系在一起。

关键词：人类智能，人工智能，认知，心理学

人工智能技术无论是在过去，现在还是将来，都作为科学研究的热点问题之一。人类对自己本身的秘密充满好奇，随着生物技术的飞速发展，人类不断破译人体的生命密码。而以生物科学为基础的人工智能技术也得到了长足的发展。人们希望通过某种技术或者某些途径能够创造出模拟人思维和行为的“替代品”，帮助人们从事某些领域的工作。为了让计算机能够从事一些只有人脑才能完成的工作，解脱人的繁重的脑力劳动，人类对自身的思维和智能不断地研究探索。但是，科学技术是一柄双刃剑，人们对人工智能技术的飞速发展存在着恐慌。如果机器真的具有了人类的智能，在未来的某一天，他们会不会取代人类而成为地球的主宰者?人类智能和人工智能，谁才是未来的传奇?

1.你在和谁说话?

“先进的人工智能机器人不但拥有可以乱真的人类外表，而且还能像人类一样感知自己的存在。”这是人工智能发展到高级阶段的目标和任务。那么，我们在不久的未来能否实现这样一个目标呢?人类真的能发明出足以乱真的智能人类吗?隔着一堵墙，我们是否能分辨出正在与我们对话的是一部机器还是人类?

. 人工智能的定义

人工智能(Artificial Intelligence) ，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是相对于人的智能而言的。正是由于意识是一种特殊的物质运动形式，所以根据控制论理论，运用功能模拟的方法心理学，制造电脑模拟人脑的部分功能，把人的部分智能活动机械化，叫人工智能。人工智能的本质是对人思维的信息过程的模拟，是人的智能的物化。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能发展的过程归纳为机器不断取代人的过程。

. 人工智能技术的发展

几个世纪以来，人类依靠智慧，发明了许多机器，使人类能够从许多体力劳动中解放出来。从1956年正式提出人工智能学科算起，40多年来取得长足的发展，成为一门广泛的交叉和前沿科学。科学家发明了汽车，火车，飞机，收音机等等，它们模仿我们身体器官的功能，但是这些不能模仿人类大脑的功能。当计算机出现后，人类开始真正有了一个可以模拟人类思维的工具，在以后的岁月中，无数科学家为这个目标努力着。1997年5月，IBM公司研制的深蓝(Deep Blue)计算机战胜了国际象棋大师卡斯帕洛夫(Kasparov)。在一些地方计算机帮助人进行其它原来只属于人类的工作，计算机以它的高速和准确为人类发挥着它的作用。计算机的出现，使得人工智能有了突破性的进展。计算机不仅能代替人脑的某些功能，而且在速度和准确性上大大超过人脑，它不仅能模拟人脑部分分析和综合的功能，而且越来越显示某种意识的特性。真正成了人脑的延伸和增强。

. 人工智能的研究领域

人工智能是一种外向型的学科，也是一门多领域综合学科。它不但要求研究它的人懂得人工智能的知识，而且要求有比较扎实的数学基础，哲学和生物学基础，只有这样才可能让一台什么也不知道的机器模拟人的思维。而人工智能的最根本目的是模拟人类的思维，因此，它的研究领域与人类活动息息相关。什么地方只要有人在工作，他就可以运用到那个领域。

现阶段主要研究领域有专家系统，机器学习，模式识别，自然语言理解，自动定理证明，自动程序设计心理学，机器人学，博弈，智能决定支持系统和人工神经网络等等。

2.机器真的可以思考吗?

机器真的可以思考吗?机器的思考归根结底还是模仿人类的思维模式，正是“思考”这一人类的本质属性，使得人工智能和心理学从最初就紧密地联系在一起。心理学研究人脑中信息的输入、输出、存储和加工，并研究人脑各个部位的功能。最早的双核计算机模仿人的左右脑，在人脑不同区域主管各个不同功能这一原理的基础上，来设计负责不同功能的芯片。以此为出发点，心理学家和计算机学者进一步合作，通过研究人解决问题的方法来研究开发人工智能。随着人工智能的发展，所要求实现的职能愈加复杂，但最基本的方式还是逻辑推理和归纳，这正是心理学家和逻辑学家的专业领域。心理学家以研究探讨人类逻辑思维方式为人工智能提供了基本原理和原则。

. 人类意识的本质

意识是世界的内在规定、一般规律和组成部分，是具有客观实在性同世界的其它组成部分处在对立统一关系中的事物。意识普遍存于世界和万物之中，世界是包含意识的世界，万物是包含意识的万物。没有意识存在于其中的世界不是我们现实生活中的世界，没有意识存在于其中的万物也不是我们天天眼见手触的万物。有了意识的存在，世界和万物就有了生机和活力。

. 意识是与物质相对应的哲学范畴，与物质既相对立又相统一的精神现象。

意识是自然界长期发展的产物，由无机物的反应特性，到低等生物的刺激感应性，再到动物的感觉和心理这一生物进化过程是意识得以产生的自然条件。意识是社会的产物，人类社会的物质生产劳动在意识的产生过程中起决定的作用。辩证唯物主义在强调物质对意识起决定作用的前提下肯定意识对于物质具有能动的反作用，在意识活动中人们从感性经验抽象出事物的本质、规律形成理性认识，又运用这些认识指导自己有计划、有目的地改造客观世界。

. 从意识的起源看，意识是物质世界发展到一定阶段的产物;从意识的本质来看，意识是客观存在在人脑中的反映。

意识是人脑对客观存在的反映：第一，正确的思想意识与错误的思想意识都是客观存在在人脑中的反映;第二，无论是人的具体感觉还是人的抽象思维，都是人脑对客观事物的反映;第三，无论是人们对现状的感受与认识，还是人们对过去的思考与总结，以至人们对未来的预测，都是人脑对客观事物的反映。意识的能动作用首先表现在，意识不仅能够正确反映事物的外部现象，而且能够正确反映事物的本质和规律;意识的能动作用还突出表现在，意识能够反作用于客观事物，以正确的思想和理论为指导心理学，通过实践促进客观事物的发展。

. 人类意识与人工智能的关系

认知心理学和人工智能，是认知科学的两个组成部分。人工智能使用了心理学的理论，心理学又借用了人工智能的成果。人类意识与人工智能两者具有以下关系：

l人工智能是研究用机器模拟和扩展人的智能的科学。它撇开了人脑的内在结构和意识的社会性，而只是把人脑作为一种信息处理的过程，包括信息的接收、记忆、分析、控制和输出五部分。现代科学技术用相应的部件来完成着五个过程，就构成了人工智能或电脑。

l人工智能可以代替人的某些脑力劳动，甚至可以超过人的部分思维能力，随着现代科学技术的发展，它发挥着越来越重要的作用。人工智能的出现不仅解放了人的智力，而且为研究人脑的意识活动提供了新的方法和途径。它说明了人的意识活动不管多么复杂，都是以客观物质过程为基础的，而不是什么神秘的超物质的东西，人们完全可以用自然科学的精确方法来加以研究和模拟，它进一步证实了辩证唯物主义意识论的科学性。

l人工智能的产生和发展，深化了我们对意识相对独立性和能动性的认识。机器思维即人工智能表明，思维形式在思维活动中对于思维内容具有相对独立性，它可从人脑中分化出来，物化为机械的、物理的运动形式，部分地代替人的思维活动。

随着科学技术的发展，人工智能将向更高水平发展，反过来推动科学技术、生产力和人类智慧向更高水平发展，对人类社会进步将起着巨大的推动作用。

3. 人工智能的未来

人工智能是为了模拟人类大脑的活动而产生的科学，人类已经可以用许多新技术新材料模拟人体的许多功能，诸如皮肤，毛发，骨骼等等，也就是说，人类可以创造出“类人体”。只要能够模拟人的大脑的功能，人就可以完成人工生命的研究工作，人创造自己，这不但在科学上，而且在哲学上都具有划时代的意义。这就是人工智能承担的历史使命。

在科学技术日新月异的今天，知识爆炸，科技的增长超出了人类承受的速度。各种新科技的出现层出不穷，随之而来的成果简直让人瞠目结舌，克隆、基因芯片、转基因等等，人类自身的秘密开始一层一层的揭开。我们人脑的复杂结构，人体的基因链也逐渐被科学技术解剖。我们希望将来的人工智能机器能将我们从繁重的体力劳动和脑力劳动中解放出来心理学，例如机器人做家务，带孩子，做司机，秘书等等一系列我们不愿意花太多精力或者有太多限制条件的工作。然而，人类由于多种“性能”都不如机器人，反而退化成为机器人的奴隶?他们会不会有一天无法忍受人类对他们的“剥削”和“压迫”，挑战人类的统治?很多的科幻作品和电影中都预言了这样的场景，未来的智能机器人和人类争夺有限的地球资源，并最终打败人类，成为新的地球统治者。这也正是绝大多数心理学家和哲学家对人工智能的发展忧心忡忡的原因。

人工智能的发展，也只能无限接近于人的智能，而不能超越人的智能。因为人工智能技术的本质，是模拟人类的思维过程，是为人类服务的。我们在进行发明创造的同时，担心被我们所发明的物质所毁灭。正如人类发明了原子能，用于取代正在逐渐消逝的矿物能源，然而当原子能用于军事领域的时候，他产生的力量也足以毁灭人类文明。科技本身并不是问题，人类如何运用自己掌握的技术，才是问题的关键。我们最大的敌人不是我们发明的技术，而是我们自己本身。

【参考文献】

1.李建国人工智能与认知心理学[J]. 西南师范大学学报 1986年4月第二期 142-146页

2.郑南宁认知过程的信息处理和新型人工智能系统[J]. 中国基础科学.科学前沿2008年 9-18页

3.蔡自兴，徐光�人工智能及其应用(第三版)[M].北京.清华大学出版社 2004年

4.(美)Sternberg,.认知心理学[M] .北京.中国轻工业出版社 2006年

5.(美)Nils 人工智能[M].北京. 机械工业出版社 2004年

下一页分享更优秀的<<<人工智能的期末论文

118 评论 12小时前发布

聊天机器人论文参考文献

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序