• 回答数

    4

  • 浏览数

    208

春暖花开cai
首页 > 学术论文 > kdd论文主题

4个回答 默认排序
  • 默认排序
  • 按时间排序

bluelove1995

已采纳

李宝键教授在“展望21世纪的生命科学”一文中谈到基因组研究计划研究重要性时,引用《Scinence》上“第三次技术命革”中的一句话:“下一个传大时代将是基因组革命时代,它正处于初期阶段。”在当前的研究水平上,只要涉及生命体重要现象的课题,几乎离不开对基因及其作用的分析。2000年6月26日,英美两国首脑会同公私两大人基因组测序集团向世人正式宣告,人基因组的工作草图已绘制完成。科学家把这作为生命科学进入新时代的标志,即后基因组时代(post-genome era)。因此有必要对基因组及其研究内容和进展作一个了解。1基因组学及其研究内容基因组(GENOME)一词是1920年Winkles从GENes和chromosOMEs组成的,用于描述生物的全部基因和染色体组成的概念。1953年Watson和Crick发现DNA双螺旋结构,标志分子生物学的诞生,随着各学科的发展,当前生物学研究进入新的进代,在生物大分子水平上将不同的研究技术和手段有机的结合以攻克生物学难题。基因组研究可以理解为:(1)基因表达概况研究,即比较不同组织和不同发育阶段、正常状态与疾病状态,以及体外培养的细胞中基因表达模式的差异,技术包括传统的RTPCR,RNase保护试验,RNA印迹杂交,但是其不足是一次只能做一个。新的高通量表达分析方法包括微点阵(microarrary),基因表达序列分析(serial analysis of gene expression,SAGE),DNA芯片(DNA chip)等;(2)基因产物-蛋白质功能研究,包括单个基因的蛋白质体外表达方法,以及蛋白质组研究;(3)蛋白质与蛋白质相互作用的研究,利用酵母双杂交系统,单杂交系统(one-hybrid system),三杂交系统(thrdee-hybrid system)以及反向杂交系统(reverse hybrid system)等。1986年美国科学家Thomas Roderick提出了基因组学(Genomics),指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱),核苷酸序列分析,基因定位和基因功能分析的一门科学。因此,基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(structural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics)。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。随着1990年人类基因组计划(Human Genome Project,HGP)的实施并取得巨大成就,同时模式生物(model organisms)基因组计划也在进行,并先后完成了几个物种的序列分析,研究重心从开始揭示生命的所有遗传信息转移到从分子整体水平对功能的研究上。第一个标志是功能基因组学的产生,第二个标志是蛋白质组学(proteome)的兴起。2 结构基因组学研究内容结构基因组学(structural genomics)是基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。遗传信息在染色体上,但染色体不能直接用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程就是基因作图。根据使用的标志和手段不同,作图有三种类型,即构建生物体基因组高分辨率的遗传图谱、物理图谱、转录图谱。遗传图谱通过遗传重组所得到的基因在具体染色体上线性排列图称为遗传连锁图。它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)来表示。绘制遗传连锁图的方法有很多,但是在DNA多态性技术未开发时,鉴定的连锁图很少,随着DNA多态性的开发,使得可利用的遗传标志数目迅速扩增。早期使用的多态性标志有RFLP(限制性酶切片段长度多态性)、RAPD(随机引物扩增多态性DNA)、AFLP(扩增片段长度多态性);80年代后出现的有STR(短串联重复序列,又称微卫星)DNA遗传多态性分析和90年代发展的SNP(单个核苷酸的多态性)分析。物理图谱物理图谱是利用限制性内切酶将染色体切成片段,再根据重叠序列确定片段间连接顺序,以及遗传标志之间物理距离[碱基对(bp)或千碱基(kb)或兆碱基(Mb)的图谱。以人类基因组物理图谱为例,它包括两层含义,一是获得分布于整个基因组30 000个序列标志位点(STS,其定义是染色体定位明确且可用PCR扩增的单拷贝序列)。将获得的目的基因的cDNA克隆,进行测序,确定两端的cDNA序列,约200bp,设计合成引物,并分别利用cDNA和基因组DNA作模板扩增;比较并纯化特异带;利用STS制备放射性探针与基因组进行原位杂交,使每隔100kb就有一个标志;二是在此基础上构建覆盖每条染色体的大片段:首先是构建数百kb的YAC(酵母人工染色体),对YAC进行作图,得到重叠的YAC连续克隆系,被称为低精度物理作图,然后在几十个kb的DNA片段水平上进行,将YAC随机切割后装入粘粒的作图称为高精度物理作图.转录图谱利用EST作为标记所构建的分子遗传图谱被称为转录图谱。通过从cDNA文库中随机条区的克隆进行测序所获得的部分 cDNA的5'或3'端序列称为表达序列标签(EST),一般长300~500bp左右。一般说,mRNA的3' 端非翻译区(3'-UTR)是代表每个基因的比较特异的序列,将对应于3'-UTR的EST序列进行RH定位,即可构成由基因组成的STS图。截止到1998年12月底,在美国国家生物技术信息中心(NCBI)数据库中分布的植物EST的数目总和已达几万条,所测定的人基因组的EST达180万条以上。这些EST不仅为基因组遗传图谱的构建提供了大量的分子标记,而且来自不同组织和器官的EST也为基因的功能研究提供了有价值的信息。此外,EST计划还为基因的鉴定提供了候选基因(candidantes)。其不足之处在于通过随机测序有时难以获得那些低丰度表达的基因和那些在特殊环境条件下(如生物胁迫和非生物胁迫)诱导表达的基因。因此,为了弥补EST计划的不足,必须开展基因组测序。通过分析基因组序列能够获得基因组结构的完整信息,如基因在染色体上的排列顺序,基因间的间隔区结构,启动子的结构以及内含子的分布等。3功能基因组学研究功能基因组学(functional genomics)又往往被称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。目前从模式生物基因组研究中得出一些规律:模式生物基因组一般比较小,但编码基因的比例较高,重复顺序和非编码顺序较少;其G+C%比较高;内含子和外显子的结构组织比较保守,剪切位点在多种生物中一致;DNA 冗余,即重复;绝大多数的核心生物功能由相当数量的orthologous蛋白承担;Synteny连锁的同源基因在不同的基因组中有相同的连锁关系等。模式生物基因组研究揭示了人类疾病基因的功能,利用基因顺序上的同源性克隆人类疾病基因,利用模式生物实验系统上的优越性,在人类基因组研究中的应用比较作图分析复杂性状,加深对基因组结构的认识。 此外,可利用诱变技术测定未知基因,基因组多样性以及生物信息学(Bioinformatics)的应用。4蛋白质组学研究基因是遗传信息的携带者,而全部生物功能的执行者却是蛋白质,它有自身的活动规律,因而仅仅从基因的角度来研究是远远不够的,必须研究由基因转录和翻译出蛋白质的过程,才能真正揭示生命的活动规律,由此产生了研究细胞内蛋白质组成及其活动规律的新兴学科——蛋白质组学(proteomics)。蛋白质组(proteome)是由澳大利亚Macquarie大学的Wilkins和Williams于1994首先提出,并见于1995年7月的“Electrophonesis”上,指全部基因表达的全部蛋白质及其存在方式,是一个基因、一个细胞或组织所表达的全部蛋白质成分,蛋白质组学是对不同时间和空间发挥功能的特定蛋白质群体的研究。它从蛋白质水平上探索蛋白质作用模式、功能机理、调节控制以及蛋白质群体内相互作用,为临床诊断、病理研究、药物筛选、药物开发、新陈代谢途径等提供理论依据和基础。 蛋白质组学旨在阐明生物体全部蛋白质的表达模式及功能模式,内容包括鉴定蛋白质表达、存在方式(修饰形式)、结构、功能和相互作用方式等。它不同于传统的蛋白质学科,是在生物体或其细胞的整体蛋白质水平上进行的,从一个机体或一个细胞的蛋白质整体活动来揭示生命规律。但由于蛋白质具有多样性和可变性,复杂性,低表达蛋白质难以检测等,应该明确其研究的艰难性。总体上研究可以分为两个方面:对蛋白质表达模式(或蛋白质组成)研究,对蛋白质功能模式(目前集中在蛋白质相互作用网络关系)研究。对蛋白质组研究可以提供如下信息:从基因序列预测的基因产物是否以及何时被翻译;基因产物的相对浓度;翻译后被修饰的程度等。由于蛋白质数目小于基因组中开放阅读框(ORF, open reading frame)数目,因此提出功能蛋白质组学(functional proteomics),功能蛋白质指在特定时间、特定环境和试验条件下基因组活跃表达的蛋白质,只是总蛋白质组的一部分。功能蛋白质组学研究是位于对个别蛋白质的传统蛋白质研究和以全部蛋白质为研究对象的蛋白质研究之间的层次,是细胞内与某个功能有关或某种条件下的一群蛋白质。对蛋白质组成分析鉴定,要求对蛋白质进行表征化,即分离、鉴定图谱化,包括两个步骤:蛋白质分离和鉴定。双向凝胶电泳(2-DGE)和质谱(MS)是主要的技术。近年来,有关技术和生物信息学在不断并迅速开发和发展中。蛋白质组研究技术体系包括:样品制备;双向聚丙烯酰胺凝胶电泳(two-dimensional polyacrylamide gel electrophoresis,2-D PAGE);蛋白质的染色;凝胶图像分析;蛋白质分析;蛋白质组数据库。其中三大关键是:双向凝胶电泳技术、质谱鉴定、计算机图像数据处理与蛋白质数据库。5与基因组学相关学科诞生随着基因组学研究的不断深入,人类有望揭示生命物质世界的各种前所未知的规律,完全揭开生命之谜,进而驾驶生命,使之为人类的社会经济服务。基因组研究和其它学科研究交叉,促进一些学科诞生,如营养基因组学(nutritional genomics),环境基因组学(environmental genomics),药物基因组学(phamarcogenomics),病理基因组学(pathogenomics),生殖基因组学(reproductive genomics),群体基因组学(population genomics)等。其中,生物信息学正成为备受关注的新型产业的支撑点。生物信息学是以生物大分子为研究,以计算机为工具,运用数学和信息科学的观点、理论和方法去研究生命现象、组织和分析呈指数级增长的生物信息数据的一门科学。研究重点体现在基因组学和蛋白质两个方面。首先是研究遗传物质的载体DNA及其编码的大分子量物质,以计算机为工具,研究各种学科交叉的生物信息学的方法,找出其规律性,进而发展出适合它的各种软件,对逐步增长的DNA 和蛋白质的序列和结构进行收集、整理、发布、提取、加工、分析和发现。由数据库、计算机网络和应用软件三大部分组成。其关注的研究热点包括:序列对比,基因识别和DNA序列分析,蛋白质结构预测,分子进化,数据库中知识发现(Knowledge Discovery in Database, KDD)。这一领域的重大科学问题有:继续进行数据库的建立和优化;研究数据库的新理论、新技术、新软件;进行若干重要算法的比较分析;进行人类基因组的信息结构分析;从生物信息数据出发开展遗传密码起源和生物进化研究;培养生物信息专业人员,建立国家生物医学数据库和服务系统[5]。20世纪末生物学数据的大量积累将导致新的理论发现或重大科学发现。生物信息学是基于数据库与知识发现的研究,对生命科学带来革命性的变化,对医药、卫生、食品、农业等产业产生巨大的影响。邹承鲁教授在谈论21世纪的生命科学时讲到,生物学在20世纪已取得巨大的发展,数理科学广泛而又深刻地深入生物学的结果在新的高度上揭示了生命的奥妙,全面改变了生物学的面貌。生物学不仅是当前自然科学发展的热点,进入21世纪后将仍然如此。科学家称21世纪是信息时代。生物科学和信息科学结合,无疑是多个学科发展的必然结果。

204 评论

吃吃喝喝小蚊子

市场营销毕业论文的写作格式、流程与写作技巧 广义来说,凡属论述科学技术内容的作品,都称作科学著述,如原始论著(论文)、简报、综合报告、进展报告、文献综述、述评、专著、汇编、教科书和科普读物等。但其中只有原始论著及其简报是原始的、主要的、第一性的、涉及到创造发明等知识产权的。其它的当然也很重要,但都是加工的、发展的、为特定应用目的和对象而撰写的。下面仅就论文的撰写谈一些体会。在讨论论文写作时也不准备谈有关稿件撰写的各种规定及细则。主要谈的是论文写作中容易发生的问题和经验,是论文写作道德和书写内容的规范问题。论文写作的要求下面按论文的结构顺序依次叙述。(一)论文——题目科学论文都有题目,不能“无题”。论文题目一般20字左右。题目大小应与内容符合,尽量不设副题,不用第1报、第2报之类。论文题目都用直叙口气,不用惊叹号或问号,也不能将科学论文题目写成广告语或新闻报道用语。(二)论文——署名科学论文应该署真名和真实的工作单位。主要体现责任、成果归属并便于后人追踪研究。严格意义上的论文作者是指对选题、论证、查阅文献、方案设计、建立方法、实验操作、整理资料、归纳总结、撰写成文等全过程负责的人,应该是能解答论文的有关问题者。现在往往把参加工作的人全部列上,那就应该以贡献大小依次排列。论文署名应征得本人同意。学术指导人根据实际情况既可以列为论文作者,也可以一般致谢。行政领导人一般不署名。(三)论文——引言 是论文引人入胜之言,很重要,要写好。一段好的论文引言常能使读者明白你这份工作的发展历程和在这一研究方向中的位置。要写出论文立题依据、基础、背景、研究目的。要复习必要的文献、写明问题的发展。文字要简练。(四)论文——材料和方法 按规定如实写出实验对象、器材、动物和试剂及其规格,写出实验方法、指标、判断标准等,写出实验设计、分组、统计方法等。这些按杂志 对论文投稿规定办即可。(五)论文——实验结果 应高度归纳,精心分析,合乎逻辑地铺述。应该去粗取精,去伪存真,但不能因不符合自己的意图而主观取舍,更不能弄虚作假。只有在技术不熟练或仪器不稳定时期所得的数据、在技术故障或操作错误时所得的数据和不符合实验条件时所得的数据才能废弃不用。而且必须在发现问题当时就在原始记录上注明原因,不能在总结处理时因不合常态而任意剔除。废弃这类数据时应将在同样条件下、同一时期的实验数据一并废弃,不能只废弃不合己意者。实验结果的整理应紧扣主题,删繁就简,有些数据不一定适合于这一篇论文,可留作它用,不要硬行拼凑到一篇论文中。论文行文应尽量采用专业术语。能用表的不要用图,可以不用图表的最好不要用图表,以免多占篇幅,增加排版困难。文、表、图互不重复。实验中的偶然现象和意外变故等特殊情况应作必要的交代,不要随意丢弃。(六)论文——讨论 是论文中比较重要,也是比较难写的一部分。应统观全局,抓住主要的有争议问题,从感性认识提高到理性认识进行论说。要对实验结果作出分析、推理,而不要重复叙述实验结果。应着重对国内外相关文献中的结果与观点作出讨论,表明自己的观点,尤其不应回避相对立的观点。 论文的讨论中可以提出假设,提出本题的发展设想,但分寸应该恰当,不能写成“科幻”或“畅想”。(七)论文——结语或结论 论文的结语应写出明确可靠的结果,写出确凿的结论。论文的文字应简洁,可逐条写出。不要用“小结”之类含糊其辞的词。(八)论文——参考义献 这是论文中很重要、也是存在问题较多的一部分。列出论文参考文献的目的是让读者了解论文研究命题的来龙去脉,便于查找,同时也是尊重前人劳动,对自己的工作有准确的定位。因此这里既有技术问题,也有科学道德问题。一篇论文中几乎自始至终都有需要引用参考文献之处。如论文引言中应引上对本题最重要、最直接有关的文献;在方法中应引上所采用或借鉴的方法;在结果中有时要引上与文献对比的资料;在讨论中更应引上与 论文有关的各种支持的或有矛盾的结果或观点等。一切粗心大意,不查文献;故意不引,自鸣创新;贬低别人,抬高自己;避重就轻,故作姿态的做法都是错误的。而这种现象现在在很多论文中还是时有所见的,这应该看成是利研工作者的大忌。其中,不查文献、漏掉重要文献、故意不引别人文献或有意贬损别人工作等错误是比较明显、容易发现的。有些做法则比较隐蔽,如将该引在引言中的,把它引到讨论中。这就将原本是你论文的基础或先导,放到和你论文平起平坐的位置。又如 科研工作总是逐渐深人发展的,你的工作总是在前人工作基石出上发展起来做成的。正确的写法应是,某年某人对本题做出了什么结果,某年某人在这基础上又做出了什么结果,现在我在他们基础上完成了这一研究。这是实事求是的态度,这样表述丝毫无损于你的贡献。

292 评论

大懒虫杰

本文是滴滴发在KDD2020的paper。 文中指出用户响应预测的困难在于模型需要考虑真实物理环境中的历史信息和实时事件信息。 本文提出了使用动态构建的异构图来编码事件的属性和事件发生的周围环境。除此之外,文中提出了一种多层图神经网络模型来学习历史行为和周围环境对于当前事件的影响,生成有效的事件表示来改善相应模型的准确性。 首先文中定义了几个术语:PreView, Request, Cancel_Order, Finish_Order PreView指的是用户确定起点和终点,页面上会显示出路线,服务类型,估计价格。Request指的是用户点击按钮,触发打车事件。Cancel_Order指的是司机到达前用户取消订单。Finish_Order指的是司机将用户送到目的地,用户付钱,完成整个交易流程。 本文的目标是对PreView事件建模,估计用户点击Request按钮的概率。 上图表示一个用户的打车流程。 文中使用名词POI(Point Of Interest)来表示地图上所有可能的上车和下车点。如上图所示,不同的用户行为同时发生在各个不同的POIs. 用户是否会点击Request按钮会由很多因素来决定。一些因素是显式的,可以直接从数据源中获取,比如用户当前位置和上车点位置的距离,天气,时间等;一些因素是隐式的,比如用户对于等待的意愿,用户对于这笔花销的意愿,用户对于路线的满意程度等等,这些特征很难直接获取。 一种解决方案是从历史数据和当前时间的观测中引入一些代替的特征,比如用户行为历史中和交易相关的行为,当前实时物理环境中发生的一些事件等等。 比如用户在当前PreView之前可能已经完成了多个订单,我们可以使用这些历史信息来捕捉用户的潜在特征,比如用户对于服务类型的偏好,用户对于花销的意愿程度等等。 具体的,用户更倾向于对那些和之前已经完成的PreView类似的PreView发起Request。同样的,我们也可以从用户没有完成的PreView中来抽取负特征。 为了计算PreView之间的相似性,文中提出使用从历史数据中学习到的embedding。除此之外,我们希望embedding能够捕捉当时周围环境的供求情况。为了达到这一目的,文中提出利用周边地区同时发生的一些事件。比如周边地区有许多需求没有被满足,那么当前的供求关系是不平衡的。再比如周边地区有许多取消订单,那么路况可能是拥挤的,或者期望等待时间很长。由此可见,一些历史数据和当前正在发生的实时数据都能为预测模型提供信息。 然而,历史数据和实时数据对于当前分析事件的相关程度是不同的,因此引入异构图来表示这些关系。 在动态异构图中embed实时事件的挑战在于: 1)对于每个新发生的事件,需要对于这个时间动态构建一个图,包括收集相关乘客的历史事件,以及周边区域发生的事件。 2)图中的实体和关系是异构的。比如时间有PreView,Request等,事件之间的关系有相同的乘客,相同的起点等。 3)对于我们关注的事件,不同的实体和不同的关系的影响的重要性程度也是不同的。 4)对于大规模实时事件进行建模。 文中并没有采用在训练阶段embed item的做法,而是提出了一种新的框架来实时生成事件的表示,使得能够捕捉用户行为和周围环境的动态变化。 每个实体的embedding以一种基于GNN的inductive的方式生成。(实体包括事件,物品,用户行为等) 整个方法主要包括以下几个步骤: 1)为每个事件构建一个动态异构图。 2)使用文中提出的异构图embedding算法来生成事件的embedding。 3)基于实体的embedding进行实时预测。 文中提出了一个概念叫heterogeneous session(h-session)。比如在一次打车的行为过程中,在PreView事件之后,可能会有Request, Finish_Order, Cancel_Order等,这些事件就属于一个h-session,描述了用户一次完整的打车行为。 构建完异构图后,文中提出了一种新的图学习算法REGNN(Real-time Event Graph Neural Network)来生成事件的embedding。 对于每个需要预测的实时事件,动态创建一个异构图,图中包括了相关h-session中的事件和其他相关的实体。图中的边表示了节点之间各种复杂的关系,包括时间顺序上的关系,空间位置的关系,以及其他的逻辑关系。 上图记录了文中用到的一些符号表示。 定义图G=(VG,EG,OV,RE),节点映射函数VG->OV,边映射函数EG->RE,VG中的每个节点对应OV中的一种类型,EG中的每条边对应RE中的一种类型。当|OV|=1并且|RE|=1时,图为同构图;否则,图为异构图。 问题定义,PreView Conversion Prediction. given PreView事件 PT = (p,o,d,T), T表示时间,o表示起点,d表示终点,p表示用户。目标是估计用户p触发事件Request的概率yT,通过embedding一系列历史的动态异构图[G_PT, G_PT-1,..., G_PT-N+1],G_Pt表示事件Pt的动态异构图,t=T-N+1,...,T. G_P中包含了不同类型的事件和物品,embedding模型的目标是学习一个函数 给出一个时间序列信息和(1)中获得的embedding,上层模型的目标是学习一个模型Gθ,其中θ是参数来预测yT。 T为timestamp,Et表示时间t事件的embedding,N表示时间序列的长度。 首先介绍real-time event embedding框架。 考虑对于PreView最相关的属性:乘客,时间戳,起点,终点。 从乘客的角度,可以从其历史行为事件中获得信息。从起点和终点的角度,可以通过综合这两个地点的事件信息获得空间的表示。 整个工作流图如上所示。 •given PreView事件PT=(p,o,d,T),根据下面的流程生成异构图: 1)乘客视角:挑选乘客一周内在时间T之前最近的Np个PreView事件(包括Request, Finish_Order, Cancel_Order)。对于这些事件在图中创建相关的邻居节点,关于乘客p的这个子图记为HetGp,T。 2)起点和终点视角:在同时发生的PreView事件中,挑选在时间戳T之前x分钟内的和PT相同起点的PreView事件,包括它们相关的Request, FInish_Order, Cancel_Order事件。这些事件添加到图中作为起点子图HetGo,T.另一方面,以相同的方式构建终点子图HetGd,T. 3)为了整合历史PreViews的时空信息,用RNN学习历史事件序列的hidden state,以键值对的方式存储它们。因此,事件序列的下一个序列能够快速的预测和更新。 •根据这些事件和当前事件PT之间的关系,添加相关类型的边。比如属于同一个h-session这种关系,或者是各自属于的h-session之前有序列关系等。 •在构造的异构子图上,使用REGNN来生成PT的实时事件embedding。 •最后,生成的事件embedding作为下游预测任务的输入。 上图展示了PreView模型的具体细节。最下面三层是三个GAT,分别对应不同的粒度(GAT within h-session, GAT across h-sessions within the same subgraph, GAT across subgraphs),之后接GRU层,接MLP层,最后给出预测。 PT的动态异构图G_PT由三种子图组成 分别表示乘客子图,起点子图和终点子图。+表示图的join操作,定义为G=G1+G2, G1=(V1,E1), G2=(V2,E2),那么G的节点为V1∪V2,G的边为E1∪E2. 三个子图的构建过程如下: •inside h-session.连接同一session中的事件来构建子图。 •across h-session.为了分析前面的h-session对于目标PreView的影响,添加前面h-session到目标PreView之间的边。然而,不同的h-session起到的影响效果是不同的,因此边的类型也是不同的, PT表示在时间T的PreView,使用最近的N个h-session来构建关于PT的图。 对于三种level,使用了三种不同的embedding模型。 •GATs inside h-session. 上式中○+符号表示concatenate,OV表示一个h-session中不同类型的事件,K表示heads的总数(GAT中的head,即一条边上做几次attention)。h(1)h_s表示做一次GAT之后h-session的隐状态,h(0)h_s表示h-session的初始状态,用PreView事件的节点特征进行初始化。(P,R,F,C分别代表PreView,Request,finish,cancel) •GATs across h-session. 在不同的h-session之间执行attention操作。对于不同子图中的h-session,GAT如下 Np,No,Nd分别表示乘客子图,起点子图,终点子图中不同的时间戳的总数。 需要注意的是t从0开始,即加上了self attention. GATp的操作如下,GATo和GATd类似。 各符号的意义和前面类似。 •GATs across subgraphs. 最终综合三个子图,计算最后的embedding。 具体式子如下, OG表示不同类型的异构子图。其余符号和前面的类似。 利用RNN对用户过去的PreView之间的时序依赖建模。文中使用了GRU ET是在时间T进行global attention得到的最终embedding,也就是(7)中的hgPT. 最终的损失函数

246 评论

中国式话

析数据库营销中的市场细分日期:2009-02-23 03:39:55 点击:6 好评:0 摘要:数据库中的知识发现(KDD)越来越多地应用到企业的市场营销设计与支持过程中。文章阐述了数据库营销的特点和作用,通过分析数据库营销中的市场细分与市场营销中...

97 评论

相关问答

  • 主题论文

    在学习和工作中,大家总少不了接触论文吧,通过论文写作可以培养我们独立思考和创新的能力。还是对论文一筹莫展吗?下面是我为大家整理的高一青春主题议论文5篇,欢迎阅读

    冬射未至 2人参与回答 2023-12-06
  • 论主次主题论文

    生活中有很多的矛盾,而我们要解决生活中的一些实际问题,就要处理好矛盾的主次关系,矛盾具有普遍性,首先要解决主要矛盾,再逐个地解决次要矛盾,事物才能够顺利发展。区

    美妙琴色 3人参与回答 2023-12-08
  • 班主任主题班会论文

    班级管理在学校的管理中是重要组成部分,班级管理工作在一定程度上反映了学校的管理效果。下面是我带来的关于班级管理论文的内容,欢迎阅读参考!班级管理论文篇一

    jajahhauqba 3人参与回答 2023-12-10
  • 主题酒店主题选择论文

    酒店管理论文是考评学生对所学专业知识综合掌握水平的一种有效方式,但是写作酒店管理论文前,我们要先确定好一个论文的题目,好的题目能起到画龙点睛的作用。下面是我带来

    真水岂无香 3人参与回答 2023-12-09
  • kdd论文主题

    李宝键教授在“展望21世纪的生命科学”一文中谈到基因组研究计划研究重要性时,引用《Scinence》上“第三次技术命革”中的一句话:“下一个传大时代将是基因组革

    春暖花开cai 4人参与回答 2023-12-09