松子红枣茶
因为工作中参与了一个智能问答相关的项目,所以需要了解“知识图谱”的相关知识。作为一个非技术类的B端产品经理,刚涉足AI领域,有些陌生和不习惯。
于是我看了很多文献和技术科普,也咨询了身边都是AI的技术生,从中大致了解了“知识图谱”的一些原理,整理了以下文章。
希望我的文章能帮助非技术产品经理,或者其他岗位的同学,更简单快捷的理解什么是“知识图谱”。
在介绍知识地图之前,先说一下知识地图在日常生活中的使用。
再比如,在线医疗行业,患者想挂号却不知道挂哪个科室的时候,可以通过预诊助手获取科室信息。预诊助手基于专业医疗知识图谱,采用多种算法模型和多轮智能沟通了解患者病情,根据患者病情精准匹配就诊科室。
以支付宝为例。在支付场景下,利用知识图谱将票据诈骗、信用卡套现等行为扼杀在摇篮里。通过知识图谱的图谱数据库,针对不同的个体和群体进行关联分析,从人物在指定时间内的行为来判断用户,比如去过的地方的IP地址,使用过的MAC地址(包括手机、PC、WIFI等。),社交网络的关联度分析,银行账户之间是否有历史交易信息。
在描述定义之前,我们先来看看知识图谱3354 [E-R图]的表现形式:
从上图可以发现,无论E-R图变换成什么形状,外观如何不同,都是由多个点和线连接而成的关系网络。
我们称之为点[实体]和线[关系],每个实体可能与一个或多个实体有关系。基于此,要形成最简单的关系网络,只需要三个要素:两个实体和一个关系。这种结构,我们称之为“三元组”,多个三元组形成一个知识图谱。
(三倍)
比如:“小方和小明是同事,两人都是因为工作需要买笔记本。小明觉得用苹果笔记本会更有说服力,于是下手了,而小方觉得联想笔记本更便宜,所以选择了联想。后来小方发现,同事安利过的软件sketch,只有苹果电脑才有。它比Axure更智能、更容易使用。”从这句话中,我们可以拆解出多个三元组:
知识地图三元组不仅可以表达实体间的关系以外,还能表示实体的某种属性。比如“小明”是实体,他的“性别、出生日期、籍贯”等可划为属性。
事物被定义为实体的“属性”,有两个基本原则:
同时值得注意的是,根据实际情况,实体有时可以是属性,属性也可以是实体。
下图是一个例子:“员工”是一个实体,“员工编号、姓名、年龄”是员工的属性。如果“职称”没有与“工资、岗位津贴、福利”挂钩,换句话说,它没有可以进一步描述的特征,那么根据准则1,它可以作为员工实体的一个属性。
但是,如果不同的职称有不同的工资、岗位津贴和不同的附加福利,那么把职称作为一个实体来对待就更合适了。
说了这么多,你应该能更好的理解【知识地图】的定义了:知识地图是一个结构化的语义知识库,用来以符号的形式描述物理世界中的概念及其关系。它的基本构成单位是“实体-关系-实体”三元组,以及实体及其相关的属性-值对。实体通过关系相互连接,形成网络知识结构。
了解知识地图的构建可以帮助我们更好地理解知识地图的使用原理。
知识地图的构建过程可以概括为三种方式:
为了介绍每一步及其意义,我编制了下表:
非商业转载请注明出处。
下图是知识地图的技术框架,可以帮助你更好的理解知识地图构建的过程。虚线框中的部分是知识地图构建的过程,也是知识地图更新的过程。
1)要构建知识图谱,需要怎样的数据呢?
答案是:结构化数据。
一般来说,知识地图的原始数据有三种类型:结构化数据、非结构化数据
所谓结构化数据,是指高度组织化、格式整齐的数据,是一种可以放入电子表格的数据类型。典型的结构化数据包括:信用卡号、日期、财务金额、电话号码、地址、产品名称等。
相比之下,非结构化数据是指不容易组织或格式化的数据。它没有预定义的数据模型,不方便使用数据库的二维逻辑表来表示数据。它可以是文本的或非文本的,人工的或机器生成的。
简单来说,非结构化数据就是具有可变字段的数据,主要是一些文档、文档等。比如一些合同文件、文章、PDF文档等。
而半结构化数据是非关系型的,具有基本的固定结构模式,如日志文件、XML文档、JSON文档等。
对于非结构化数据和半结构化数据,我们需要确认可以从中提取哪些可用信息,并制定信息录入规则。借助NLP等技术,可以将有效信息生成结构化数据,进而纳入知识地图。
2)图数据库及关系型数据库的差别
知识地图是基于图数据库存储数据的。所谓图数据库,不是指存储图片、图像的数据库,而是指存储图这种数据结构的数据库。之前我们说的E-R图,就是图数据的可视化展示。的
与传统的关系数据库使用二维表存储数据不同,图数据库传统上被归类为NoSQ。
L(Not Only SQL)数据库的一种,也就是说图数据库属于非关系型数据库。为了避免内容太过技术性,这里不会对图数据进行深入的介绍,只简单说下图数据库及关系型数据库的差别。
关系型数据库不擅长处理数据之间的关系,而图数据库在处理数据之间关系方面灵活且高性能。
传统的关系型数据库在处理复杂关系的数据上表现很差,这是因为关系型数据库是通过外键的约束来实现多表之间的关系引用的。查询实体之间的关系需要JOIN操作,而JOIN操作通常非常耗时。
而图数据库的原始设计动机,就是更好地描述实体之间的关系。图数据库与关系型数据库最大的不同就是免索引邻接,图数据模型中的每个节点都会维护与它相邻的节点关系,这就意味着查询时间与图的整体规模无关,只与每个节点的邻点数量有关,这使得图数据库在处理大量复杂关系时也能保持良好的性能。
另外,图的结构决定了其易于扩展的特性。我们不必在模型设计之初就把所有的细节都考虑到,因为在后续增加新的节点、新的关系、新的属性甚至新的标签都很容易,也不会破坏已有的查询和使用功能。
而关系型数据库,如果一开始就设计好数据字段并跑了一段时间数据,想再增加字段就会非常麻烦,需要开发人员或产品经理在开发初期就设想好未来可能会新增的字段,并提前加入到数据表中。
neo4j-图数据库
通俗易懂解释知识图谱(Knowledge Graph)
图数据库是什么?
题图来自 Unsplash,基于CC0协议。
PC端是和移动终端相对应的名词,就是指网络世界里可以连接到电脑主机的那个端口,是基于电脑的界面体系,它有别于移动端的手机界面体系。 其实PC的英文全称是:Personal Computer 翻译成中文的意思是:个人计算机或者个人电脑。PC是一个具有广泛含义的词语,也是电脑的统称。就目前而言个人电脑种类有很多,比如传统的台式电脑、DIY电脑、笔记本电脑、以及近年来开始流行的平板电脑、一体机电脑、超级本、掌上电脑、嵌入式计算机均属于PC的范畴。也就是说PC是一个广泛词,属于电脑的总称。
天晴小姐8755
前言及背景:在构建知识图谱的过程中,大量知识信息来源于文档和网页信息,在从文档提取知识的过程中往往会有偏差,这些偏差来自于看两方面:
(1)文档中会有很多噪声信息,即无用信息,它的产生可能来自于知识抽取算法本身,也可能和语言文字本身的有效性有关;
(2)文档信息量有限,不会把所有知识都涵盖进去,尤其是很多常识性知识。
以上都会导致知识图谱是不完整的,所以 知识图谱补全 在构建知识图谱中日益重要。 通过 已获取的知识 来对实体间进行关系预测,以达到对实体间关系的补全,也可以是实体类型信息的补全。该过程可以利用本知识库内部的知识,也可以引入第三方知识库的知识来帮助完成。 整理了一份200G的AI资料包: ①人工智能课程及项目【含课件源码】 ②超详解人工智能学习路线图 ③人工智能必看优质书籍电子书汇总 ④国内外知名精华资源 ⑤优质人工智能资源网站整理(找前辈、找代码、找论文都有) ⑥人工智能行业报告 ⑦人工智能论文合集 /","uri":"","width":31,"height":27,"darkImgUrl":"","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula"> 资料在网盘里排列的非常整齐干净!希望对大家的学习有所帮助, 私信备注【05】添加领取
知识图谱补全分为两个层次: 概念层次的知识补全 和 实例层次的知识补全 。 往往提到知识图谱构建过程中只是提及了实体和关系的抽取,然后就可以生成实体和关系组成的RDF了。 但是,仅仅获取三元组是不够的,还要考虑这些,因为三元组中的实体除了具有属性和关系之外,还可以 映射关联到知识概念层次的类型(type),而且一个实体的类型可以有很多 。
例如:实体奥巴马的类型在不同关系中是有变化的。 在出生信息描述中,类型为人;在创作回忆录的描述中其类型还可以是作家;在任职描述中还可以是政治家。 实体类型的概念层次模型 在这里:人、作家、政治家这些概念之间是有层次的,也就是所说的概念的层次模型。 1、概念层次的知识补全——主要是要解决实体的类型信息缺失问题 正如前面的例子所描述,一旦一个实体被判别为人这个类型,那么在以构建好的知识模式中,该实体除了人的类型外仍需要向下层概念搜索,以发现更多的类别描述信息。 (1)基于描述逻辑的规则推理机制。 本体论和模式 :实体都可以归结为一种本体,而这种本体会具有一组模式来保证其独特性,这组模式可以用规则来描述,因此,对于本体而言,其可以由这组规则来描述。 例如,奥巴马是个实体,他的本体可以归为人,而人的模式就是可以使用语言和工具、可以改造其他事务等等,这些模式可以通过规则来描述,于是基于描述逻辑的规则推理方法就出现了。 描述逻辑 是一种常见的知识表示方式,它建立在概念和关系之上。 比如,可以将关于人的实体实例(可以是文本)收集起来,从中提取出其中模式并以规则的形式记录下来,这样一来,只要遇到一个新的实体实例 ,只需将其代入到之前记录下的规则中进行比较即可做出判断,如果符合规则,就说明该实例可以归类为人的概念类型,否则就判定为非此概念类型。 (2)基于机器学习类型推理机制 经过基于描述逻辑的规则推理的发展阶段后,机器学习相关研究开始占据主流,此时 不是单纯地利用实例产生的规则等内部线索来进行判断,同时也要利用外部的特征和线索来学习类型的预测 。 对一个未知类型实体e1而言,如果能找到一个与其类似的且已知类型的实体e2的话,那么就可以据此推知实体e1的类型应该与e2的类型一致或至少相似。 此类方法主要可以分为:基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理(如,Markov逻辑网)几个方向。 (3)基于表示学习类型推理机制 将嵌入式学习和深度学习引入到类型推理,基于机器学习的类型推理方法大多假设数据中没有噪声,且其特征仍然需要认为选择和设计,引入深度学习可以避免特征工程。而类型推理要依据文本内容,也需要链接结构等其他特征的支持,此时嵌入式方法可以发挥其自身优势。
2、实例层次的知识补全 可以理解为:对于一个实例三元组(SPO,主谓宾),其中可能缺失情况为(?,P,O),(S,?,O)或者(S,P,?),这就如同知识库中不存在这个三元组,此时需要预测缺失的实体或者关系是什么。 事实上, 很多缺失的知识是可以通过已经获得的知识来推知的 ,有时这个过程也被称为 链接预测 。 注意 :有时知识不是缺失的,而是 新出现 的,即出现了新的三元组,且这个三元组不是原知识库所已知的知识,此时需要将其作为新知识补充道知识库中,但此种情形 不是传统意义的补全 。 (1)基于随机游走的概率补全方法 (2)基于表示学习的补全方法 知识图谱嵌入流程: ①结构嵌入表示法 ②张量神经网络法 ③矩阵分解法 ④翻译法
(3)其他补全方法 跨知识库补全方法、基于信息检索技术的知识库补全方法、知识库中的常识知识补全
面临的挑战和主要发展方向: (1)解决长尾实体及关系的稀疏性。 知名的明星的关系实例会很多,而对于普通民众的实例就很少,但是他们数量却众多,导致其相关的关系实例也是十分稀疏,而且在数量不断增加的情况下,这种情况会更加明显。 (2)实体的一对多、多对一和多对多问题。 对于大规模数据,不是一对十几或者几十数量级那么简单,而是成百上千的数量级,传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。 (3)三元组的动态增加和变化导致KG的动态变化加剧。 新知识源源不断的产生,而之前的知识可能被后面证明是错误的,或者需要修正的。这些都会使得知识补全的过程也需修正改变,如何使得知识图谱补全技术适应KG的动态变化变得越来越重要,而这方面的技术还未引起足够的重视。 (4)KG中关系预测路径长度会不断增长。 关系预测能推理的长度是有限的,但在大规模知识图谱闪光,实体间的关系路径序列会变得越来越长,这就需要更高效的模型来描述更复杂的关系预测模型。
wwddllhhppqq
从知识管理的角度而言,知识图谱的应用场景有以下这些:智能知识库:采用数据爬虫、NLP、知识图谱等技术,实现企业知识内容自动采集以及自动化加工整理,帮助企业节省成本,从而便于企业从0-1快速启动知识管理工作;科技资源图谱:以专业知识本体为中心,实现企业相关专利、论文、成果、标准等知识资源的一体化管理,可以为跨类型发现科技情报关联、科技情报语义检索、以及技术决策分析提供支持。产品知识图谱:打通研发、制造、市场等环节,实现产品全生命周期数据&信息&知识的全视图呈现、产品信息查询、产品版本时序追溯等,并可以为产品原料挖掘、研发成本计算、产品卖点提炼等提供决策依据。解决方案图谱:帮助方案型企业实现针对各个解决方案的特征(F)、优势(A )、利益(B)和证据(E)的FABE结构化知识描述,并动态关联方案相关的专家、项目、客户等信息,可以为提升公司产品方案的销售赋能效果,提高项目中标率等提供支持。项目知识图谱:实现项目基本属性、项目阶段成果、项目关联信息(如合同、人员、客户、业绩等)的一体化管理,构建融项目结构化、非结构化数据为一体的“项目户口本”应用,可以为企业项目资产管理、项目知识成果推荐复用等提供支持。设备维修图谱:面向设备健康场景,通过设备故障、家族型缺陷、故障案例、缺陷记录等各类数据构建成设备维修图谱。如以变压器为例,设备维修图谱基于装备、部件、故障、质量分析报告、故障事件等数据形成统一管理知识库,为设备管理人员提供家族缺陷信息、设备故障等查询功能,为设备维修人员提供相似案例推荐、设备处理建议等功能,同时支持可视化分析缺陷影响范围。工艺知识图谱:基于人机料法环五要素,实现工艺、工艺原料、工艺流程、工艺缺陷、工艺设备、相关人员等数据融合,可以为用户提供工艺知识检索、工艺全景展示、工艺流程控制等应用。如在工艺流程控制中,可由实施人员对设计人员的工艺设计进行可行性检测,减少不合理的设计、避免后期返工,进而达到工艺协同改进、辅助工艺设计的效果。
写论文的关键是提纲。只有写了提纲,才能写出一篇成功的 毕业 论文,有了毕业论文提纲,你的写作流程思路也会更加清晰,下面我给大家分享毕业论文提纲怎么写,希望能
题目:应简洁、明确、有概括性。关键词:从论文标题或正文中挑选3~5个最能表达主要内容的词作为关键词。摘要:(150字)要有高度的概括力,语言精练、明确,交代本文
论文主要内容: 一、论文的标题部分 标题就是题目或题名,标题需要以最恰当、最简明的词语反映论文中重要的特定内容逻辑组合,论文题目非常重要,必须用心斟酌选定。 二
本科毕业论文不水。 毕业论文是一项毕业资格审查的重要组成部分,是对学生整个本科学习的总结和评价。因此,毕业论文的质量应该是比较高的,需要经过认真的阅读、研究和撰
第一,如果是要把已经写好的论文写成PPT展示,那就很简单了。选择论文的各章节作为目录,展示章节的内容,可以用文字方式或者提炼成图片格式均可。总之,把几万字的论文