爱美食的NANA
我们描述潜在的狄利克雷分配(LDA),它是一种用于离散数据集合(如文本语料库)的生成概率模型。 LDA是一个三层次的贝叶斯模型,其中一个集合中的每个项目都被建模为一组潜在的话题(主体)类型的有限混合。反过来,每个主题都被建模为一组潜在主题概率的无限混合。 在文本建模的背景下,主题概率提供了文档的明确表示。我们提出了基于变分方法和经验贝叶斯参数估计的EM算法的高效近似推理技术。 我们会报告LDA在文档建模,文本分类和协作过滤上的实验结果,并与一元混合模型( unigrams model)和概率LSI模型相比较。
在本文中,我们考虑建模文本语料库和其他离散数据集合的问题。我们的目标是找到对一个集合的成员的简短描述,它不仅可以高效处理大型集合,同时保留对分类,异常检测,摘要(概括)以及相似性和相关性判断等基本任务有用的必要统计关系。
信息检索(IR)领域的研究人员已经在这个问题上取得了重大进展(Baeza-Yates和Ribeiro-Neto,1999)。IR研究人员为文本语料库提出的基本方法 (一种在现代互联网搜索引擎中成功部署的方法)将语料库中的每个文档变为实数表示的向量,每个实数都表示(词汇的)计数比率。流行的tf-idf方案(Salton和McGill,1983),对于文集中的每个文档选择了“词”或“术语”作为基本单位,并且计数由每个词的出现次数。在适当的归一化之后,将该术语频率计数与逆向文档频率计数进行比较,该逆向文档频率计数度量整个语料库中的词的出现次数(通常以对数刻度,并且再次适当标准化)。 最终结果是文档术语矩阵X,其列包含文档集中每个文档的tf-idf值。 因此,tf-idf方案将任意长度的文档缩减为固定长度的数字列表。
尽管tf-idf规约具有一些吸引人的特征 - 特别是(在对集合中的文档进行区分的)单词集合的基本识别中,但是在(对文档的)描述长度上,该方法并没有减少多少,并且揭示出很少的文档内或文档间的统计结构。为了解决这些缺点,IR研究人员提出了其他几种降维技术,其中最著名的是潜在语义索引(LSI)(Deerwester等,1990)。LSI使用X矩阵的奇异值分解来标识tf-idf特征空间中的线性子空间,该子空间捕获集合中的大部分变异数(variance)。这种方法可以在大型集合中实现显着压缩。此外,Deerwester等人 认为LSI的衍生特征(即原始tf-idf特征的线性组合),可以捕捉基本语言学概念的某些方面,比如同义词和多义词等。
为了证实关于LSI的主张,并研究其相对的优缺点,开发文本语料库的生成概率模型和研究LSI从数据中恢复生成模型方面的能力是有用的(Papadimitriou et al。,1998)。然而,目前尚不清楚,考虑文本的生成模型的时候,为什么应该采用LSI方法 - (其实)可以尝试更直接地进行,(比如)使用最大似然法或贝叶斯方法将模型与数据相匹配(即得到数据的模型)。
Hofmann(1999)在这方面迈出了重要的一步,他将LSI的概率LSI(pLSI)模型(也称为特征模型aspect model)作为LSI的替代品。我们在第节中详细描述的pLSI方法将文档中的每个单词作为混合模型中的样本进行建模,其中混合组件是多项随机变量,可以将其视为“主题topics”的表示。因此,每个单词都是从单个主题生成的,而文档中的不同单词可以从不同的主题生成。每个文档都被表示为这些混合组件的混合比例列表,从而将其简化为一组固定主题的概率分布。 这种分布是与文档相关的“简化描述”。
虽然霍夫曼的工作是向文本概率建模迈出的有用的一步,但它并不完整,因为它没有提供文档层面的概率模型。在pLSI中,每个文档都被表示为一个数字列表(数字的值是主题的混合比例),并且这些数字没有生成概率模型。这导致了几个问题:(1)模型中参数的数量与语料库的大小成线性增长,这导致过度拟合的严重问题;(2)不清楚如何将概率分配给训练集之外的文档。
要了解如何超越pLSI,让我们考虑包括LSI和pLSI在内的一类降维方法的基本概率假设。所有这些方法都基于“词袋”的假设 - 文档中的单词顺序可以忽略不计。此外,尽管不经常正式说明,但这些方法也假定文档是可相互交换的; 文集中文档的具体排序也可以忽略不计。
受益于Finetti(1990),一个经典表示理论认为:任何可交换随机变量的集合都具有混合分布(通常是无限混合)的表示。因此,如果我们想考虑文件和单词的可交换表示,我们需要考虑能捕获单词和文档的可交换性的混合模型。这一思路促使我们在当前论文中提出潜在狄利克雷分配(LDA)模型。
需要强调的是,可交换性的假设并不等同于随机变量独立同分布的假设。相反,可交换性本质上可以被解释为“条件独立且分布相同”,其中的条件是与概率分布的潜在隐参数有关的。在一定条件下,随机变量的联合分布是简单的,但如果围绕隐参数考虑,联合分布可能相当复杂。因此,虽然可交换性的假设是文本建模领域的一个主要的简化假设,并且其主要理由是它是一种会导致计算效率较高的方法,但可交换性假设对简单频率的计数或线性操作并不是一个必要的条件。在当前的论文中,我们的目标是,通过认真考虑de Finetti定理,可以通过混合分布获取重要的文档内统计结构。
同样值得注意的是,可交换性的基本概念有大量的总结概括,包括各种形式的部分可交换性,并且上面提到的表示法也可用于部分可交换的情况(Diaconis,1988)。因此,虽然我们在当前论文中讨论的工作集中在简单的“词袋”模型上(这表现为单个单词(unigrams)的混合分布),但我们的方法也适用于涉及较大结构混合的更丰富的模型,如n-grams或段落。
本文的结构如下: 在第2节中,我们介绍基本的表示法和术语。 LDA模型在第3节中介绍,并与第4节中的相关潜变量模型进行比较。我们在第5节讨论LDA的推理和参数估计。第6节提供了LDA拟合数据的一个说明性例子。文本建模,文本分类和协作过滤的实验结果在第7节中给出。最后,第8节给出我们的结论。
我们在整篇论文中使用 文本集合 的说法,指的是诸如“单词”,“文档”和“语料库”等实体。这很有用,因为它有助于指导靠直觉来感知的知识的处理(intuition),特别是当我们引入旨在捕捉抽象概念(如主题)的潜在变量时(潜在变量和隐变量说的是一回事)。然而,需要指出的是,LDA模型不一定与文本相关,并且可应用于涉及数据集合的其他问题,包括来自诸如协同过滤,基于内容的图像检索和生物信息学等领域的数据。 事实上,在节中,我们将呈现在协同过滤领域的实验结果。
在形式上,我们定义下列术语: • 单词是离散数据的基本单位,假设有一个V个词组成的词汇表(词典),索引通过{1......V}表示,里面每一项代表一个单词。我们使用单位向量表示单词,它里面一项等于1其他项等于零。我们使用上标来表示第几个成分,因此第v个词在V维向量w中表示为:w v = 1 and w u = 0 for u ≠ v • 文档中的词来自一个包含N个词的词典,一个文档可以表示成N个词组成的序列,可以表示为 w = (w 1 ,w 2 ......w N ),下标表示第几个词。(注意,每个词用一个V维的向量表示,每篇文档有最多有N个不同的词,不要搞混了) • 一个语料库是含有M个文档的集合,用 D = ( w 1 , w 2 ...... w M )----注意有加粗
我们希望找到一个语料库的概率模型,它不仅为语料库成员分配高概率,而且为其他“类似”文档分配高概率。(意思就是说,语料库中某一文档的某个topic概率比较高,那么测试相似文档。也能得到相同的概率分布)
隐在狄利克雷分配(LDA)是语料库的生成概率模型。 其基本思想是文档被表示为潜在主题的随机混合,每个主题都是有不同的文字(词)分布特征的。
LDA为语料库 D 中的每个文档 w 假定以下生成过程:
在这个基本模型中做了几个简化的假设,其中一些我们在后面的章节中会删除。首先,Dirichlet分布的维度k(以及主题变量z的维度)被假定为已知并且是固定的。其次,单词概率通过k×V矩阵 β 进行参数化,其中 β ij = p(w j = 1 | z i = 1)(猜测:它表示在某个主题中索引为i的词出现的条件下,文档中第j个词出现的概率),现在我们将其视为待估计的固定量。最后,泊松假设对随后的任何事情都不是关键的,并且可以根据需要使用更真实的文档长度分布。此外,请注意,N与所有其他数据生成变量(θ和z)无关。 因此它是一个辅助变量,我们通常会忽略它在随后发展中的随机性。
一个k维Dirichlet随机变量θ可以从(k − 1)-simplex(单形或单纯形)中取值,并且在这个单纯形中有以下概率密度:
α 参数是一个k维向量,并且 α 的每一项都满足α i > 0,另外Γ(x)是 伽马函数 。狄利克雷分布在单形(属于指数族)上是一种实用的分布,具有有限维数的充分统计量,并且与多项分布共轭。
在第5节中,这些属性将有助于开发LDA的推理和参数估计算法。
给定参数α和β,主题混合分布θ、主题 z 和文档 w 的联合分布为:
上式表示给定参数α和β的条件下,文档的概率分布。
最后,利用单个文档边际概率的乘积,得到一个语料库的概率分布:
区分LDA和简单的Dirichlet多项式聚类模型很重要。 经典的聚类模型会涉及到一个两层模型:其中,一个Dirichlet为一个语料库抽样一次,一个多项式聚类变量为语料库中的每个文档选择一次,并且以聚类变量为条件,为文档选择一组词语 。与许多聚类模型一样,这种模型将文档限制为与单个主题相关联。另一方面,LDA涉及三个层次,特别是主题节点在文档中被重复采样。在这种模式下,文档可以与多个主题相关联。
图1所示类似结构通常在贝叶斯统计建模中研究,它们被称为分层模型(Gelman等,1995),或者更准确地说,是条件独立的分层模型(Kass和Steffey,1989)。这种模型通常也被称为参数经验贝叶斯模型(parametric empirical Bayes models),这个术语不仅指特定的模型结构,而且还指用于估计模型参数的方法(Morris,1983)。事实上,正如我们在第5节中讨论的那样,我们采用经验贝叶斯方法来估计一个LDA简单实现中的参数(比如,α和β等),但我们也考虑了更充分的贝叶斯方法。
如果联合分布对于置换是不变的,那么一个有限的随机变量集{z 1 ......z N }被认为是可交换的。 如果π(此π非彼π)表示某种整数从1到N的置换规则,则:
p(z 1 ......z N ) = p(z π(1) ......z π(N) )
如果每个有限的子序列是可交换的,则无限序列的随机变量是无限可交换的。
De Finetti的表示定理指出,随机变量的无限可交换序列的联合分布就好像从一些分布中抽取的一个随机参数,以该参数为条件,所讨论的随机变量是独立同分布的。
在LDA中,我们假设单词是由主题(通过固定的条件分布)生成的,而且这些主题在文档中是无限可交换的。根据菲内蒂定理,一组词汇和话题的概率必须具有以下这种形式:
θ是关于主题的多项式的随机参数。通过边缘化主题变量并赋予θ狄利克雷分布,在公式(3)中,我们获得了文档的LDA分布。
图1所示的LDA模型比传统分层贝叶斯文献中经常研究的两层模型要复杂得多。然而,通过边缘化隐藏的主题变量z,我们可以将LDA理解为两层模型。
特别是,让我们来构造单词分布p(w|θ,β):
请注意,这是一个随机量,因为它取决于θ。
我们现在为文档 w 定义下面的生成过程:(对每篇文档)
该过程将文档的边际分布定义为连续混合分布:(注意下式表示的是语料库,而非一篇文档 的分布)
图2说明了LDA的这种解释。 它描绘了LDA模型的一个特定实例引发的p(w| θ,β)的分布。请注意,在(V-1) - simplex中的这种分布仅通过k + kV个参数实现,但展现出非常有趣的多模式结构。
在本节中,我们将LDA与文本的简单潜(隐)变量模型(一元模型,一元模型的混合模型和pLSI模型)进行比较。 此外,我们提出了这些模型的统一几何解释,突出了它们的主要区别和相似之处。
在一元模型下,每个文档的单词都是独立的按照某个多项分布而绘制的,生成文档的概率为:
如果我们用一个离散的随机主题变量z(图3b)来扩充一元模型,我们就可以得到一个混合一元模型(Nigam et al.,2000)。在这个混合模型下,首先选择一个主题z,然后从条件多项式p(w | z)独立的生成N个单词,从而生成每个文档(该文档中的所有词都来自一个主题)。一篇文档的概率分布:
在每个文档仅显示一个主题的假设背景下,当从语料库做概率估计时,可以将词语分布视为主题的表示。正如第7节的实证结果所示,这种假设通常限制性太强,以至于无法有效地建模量大的文献。
相反,LDA模型允许文档在不同程度上展示多个主题。这是以(增加)一个额外参数为代价实现的:在混合一元模型中有与p(z)相关的参数有k-1个,而在LDA中与p(θ | α)有关的参数有k个。
概率潜在语义索引(pLSI)是另一个广泛使用的文档模型(Hofmann,1999)。 如图3c所示,给定了未知的主题z,pLSI模型假设文档标签d和单词w n 是条件独立的:
使用pLSI的另一个困难(也是来自于通过训练文档进行索引的分布的使用)是必须估计的参数数量与训练文档的数量呈线性增长。k-主题pLSI模型的参数是在k个未知主题上,V和M混合大小的k个多项式分布。这给出了kV + kM个参数,因此在M中线性增长。参数的线性增长表明该模型容易出现过度拟合,并且根据经验确定,过拟合确实是一个严重的问题(参见第节)。在实践中,使用回火试探来平滑模型的参数以获得可接受的预测性能。 然而,已经表明,即使在使用回火时也可能发生过度拟合(Popescul et al.,2001)。
LDA通过将主题混合权重视为一个k个参数的隐藏的随机变量,而不是大量与训练集明确关联的单个参数,来克服这两个问题。如第3节所述,LDA是一个良好定义的生成模型,可轻松推广到新文档。此外,k-topic LDA模型中的k + kV个参数不会随着训练语料库的大小而增长。我们将在节看到,LDA不会遇到与pLSI相同的过度拟合问题。
说明LDA和其他潜在主题模型之间差异的一种好方法是考虑潜在空间的几何形状,并了解每个模型下文档在该几何体中的表示方式。
上述所有四种模型(unigram, mixture of unigrams, pLSI, and LDA)都是在单词分布空间中进行操作的。每个这样的分布可以被看作是(V-1) - simplex上的一个点,我们称之为词单纯形(the word simplex)。
一元模型在词单纯形上找到一个单一的点,并假定文集中的所有单词来自相应的分布。潜变量模型考虑词单纯形上的k个点,并根据这些点构成子单形体,我们称之为主题单纯形。请注意,主题单纯形上的任何一点也是单词单纯形上的一个点。不同的潜在变量模型以不同的方式使用主题单纯形来生成文档。
• 混合一元模型假设,对于每个文档,词单纯形中的k个点(即,主题单纯形的那些角中的一个)中的一个一旦随机选择后,文档的所有单词都从对应于那一点的分布中获取。
• pLSI模型假定训练文档的每个单词来自随机选择的主题。这些主题本身来自于文档在主题上的特征分布,也就是主题单纯形上的一个角点。每个文件有一个这样的分布,训练文档集因此定义了关于主题单纯形的经验分布。
• LDA假定观察到的(训练集)和未看到的(验证集)文档中的每个词都是由随机选择的主题生成的,该主题是从具有一个随机选择参数的分布中抽取的。 从主题单纯形的平滑分布中,每个文档对此参数进行一次采样。
这些差异在图4中突出显示。
我们描述了使用LDA背后的动机,并说明了其与其他潜在主题模型相比的概念优势。在本节中,我们将注意力转向LDA下的推理和参数估计。
为了使用LDA我们需要解决的关键推理问题是计算给定文档的隐藏变量的后验分布:
不幸的是,这种分布通常难以计算。 实际上,为了规范化分布,我们将忽视隐藏变量并根据模型参数重写方程(3):
这是一个由于在潜在主题的总和中θ和β之间的耦合,而难以处理的函数(Dickey,1983)。Dickey表示这个函数是在Dirichlet分布的特定扩展下的期望,可以用特殊的超几何函数表示。它在贝叶斯环境中可用于删除(或审查,censored 暂时不明白怎么翻译)离散数据,以表示θ的后验(在该设置中,θ是随机参数)(Dickey等,1987)。
尽管后验分布对于精确推断是难以处理的,但是对于LDA可以考虑各种各样的近似推理算法,包括拉普拉斯近似,变分近似和马尔可夫链蒙特卡罗(Jordan,1999)。在本节中,我们描述了一个简单的基于凸性的变分算法,用于推断LDA,并讨论了第8节中的一些替代方案。
基于凸性的变分推理的基本思想是利用Jensen不等式来获得对数似然的可调下界(Jordan et al。,1999)。本质上,人们考虑一系列下界,它们由一组变分参数索引。变分参数由优化程序选择,该程序试图找到最可能的下限。
获得易处理的下界族的简单方法是考虑原始图形模型的简单修改,原始图形模型中一些边和节点已被移除。特别考虑图5(左)中所示的LDA模型。 θ和β之间的有问题的耦合是由于θ,z和w之间的边界而产生的。 通过丢弃这些边和w节点,并赋予所得到的简化图形模型以及自由变分参数,我们获得了潜在变量的一个分布族。这个分布族以下面这个变分分布为特征:
已经指定了简化的概率分布族,下一步是建立一个确定变分参数γ和Φ的值的优化问题。 正如我们在附录A中所示,找到对数似然的紧密下界的期望直接转化为以下优化问题:
因此,通过最小化变分分布和真实后验p(θ, z | w,α,β)之间的KullbackLeibler(KL)发散来找到变分参数的优化值。这种最小化可以通过迭代定点方法实现。 特别是,我们在附录中表明,通过计算KL散度的导数并将它们设置为零,我们得到以下一对更新方程:
最近有新的项目做,没时间翻译啦,以后有时间再填坑,此处省略3000字......
青笋丝爱吃榴莲
社会网络分析理论: 在社会网络[63]由人类学家Barnes最早提出的概念,他在社会网络的分析基础上统地研究挪威一个小渔村的跨亲缘与阶级的关系。在社会网络分析中,存在一些经典的理论。这些理论主要包括:六度分割理论、弱关系理论、150法则、小世界网络理论、马太效应等。基于社会网络有关的研究方向和内容,在不同的领域着发挥着各自的作用,例如,社会影响力分析,社区发现,信息传播模型,链接预测,基于社会网络的推荐。 150法则是指一个人能保持稳定社交关系的人数上限通常为150人。1929年由英国罗宾•邓巴教授(Robin Dunbar)提出了经典的”150定律”理论,该定律同时也被称为“邓巴数字”[64]。这个定律在我们的实际日常生活中的应用是相当普遍的,SIM卡中只能存储150个联系人的电话,微软的MSN中也只可以最多把150位联系人的信息添加到自己的名单中[64]等等。 小世界网络是一种具有特殊结构的复杂网络,在这种网络中大部份的节点是不相邻的,但绝大部份节点之间是连通的且距离很短。六度分割理论也是小世界网络理论的一种体现。在多数现实世界的社会网络中,尽管网络中的节点数量巨大,网络中相邻的节点相对较少,但每两个节点间往往只需要很短的距离便能连通。 六度分割就是指一个人与其他任何一个人之间建立起联系,最多都只需要经过六个人。所以,即便邓巴数字告诉我们,我们是能力上维持一个特别大的社交圈的,但是六度分割理论却可以告诉我们,通过我们现有的社交人脉圈以及网络可以无限扩张我们的人脉圈,在需要的时候都能够和地球中想要联系的任何人取得联系。 弱关系理论弱关系(Weak Tie)是指需要较少或不需要情感联系的人们之间的社会联系,这种联系几乎不需要耗费个人的时间或精力来维系,但这种联系却很有作用。美国社会学家Mark Granovetter在研宄人们在求职过程中如何获取工作信息时发现[65],由家人、好友等构成的强关系在获取工作信息过程中起到的作用很有限,而那些关系较疏远的同学、前同事等反而能够提供更加有用的求职信息。 马太效应可以理解为达尔文进化论中适者生存的理念。在社交网络的发展过程如同生物进化的过程,存在强者越强、弱者越弱的现象。也就是说,在社交网络中越是处于网络核心的节点很大可能会变来越核心,而那些处于社交网络中边缘地带的节点或许会越来越不重要甚至直至消失。那些在社交网络中相比其他节点拥有更大影响力的节点,其带给该网络的影响也要比那些拥有弱影响力的节点所带来的影响要强。 从不同角度探索节点影响力挖掘算法: 1.基于邻节点中心性的方法。这类方法最简单最直观,它根据节点在网络中的位置来评估节点的影响力。度中心性[13]考察网络中节点的直接邻居数目,半局部中心性[14]考察网络中节点四层邻居的信息,ClusterRank[15]同时考虑了网络中节点的度和聚类系数。 2.基于路径中心性的方法。这类方法考察了节点在控制信息流方面的能力,并刻画节点的重要性。这类方法包括子图中心性[16]、数中心性[17](一些演化算法包括:路由介数中心性[18],流介数中心性[19],连通介数中心性[20],随机游走介数中心性[21]等)及其他基于路径的挖掘方法。 3.迭代寻优排序方法。这类方法不仅考虑了网络中节点邻居的数量,并且考虑邻居质量对节点重要性的影响,包括了特征向量中心性[13],累积提名[22],PageRank算法[23]及其变种[24-32]。 4.基于节点位置的排序算法。这类方法最显著的特点是,算法并没有给出一个计算节点重要性的定义,而是通过确定节点在网络中的位置,以此来确定节点的重要程度。在网络核心位置的节点,其重要性就相对较高,相反的,若节点处于网络边缘,那么它的重要性就会比较低。基于节点位置的以及不同应用场景的推荐算法具有重要的研究意义[34-37]。 节点影响力评估方法: 在社交网络节点影响力的评估方法主要可以分为三类,基于静态统计量的评估方法、基于链接分析算法的评估方法,基于概率模型的评估方法。 众学者在静态统计量的方法上,结合不同社交网络中相关信息,借鉴链接分析法以及建立概率模型来评估节点影响力,对社交网络节点影响力可以做到更有效的评估[66]。 1)基于静态统计量度量方法 主要是通过网络中节点的一些静态属性特征来简单直接地体现节点的影响力,但面对社交网络中复杂信息以及不同平台,并不能有效地度量不同社交网络中节点影响力。如度中心性,主观认为节点的重要性取决于与其他节点连接数决定,即认为一个节点的邻居节点越多,影响力越大。在有向网络中,根据边的方向,分为入度和出度,在有权网络中,节点的度可以看作强度,即边的权重之和。度中心性刻画了节点的直接影响力,度中心性指标的特点是简单、直观、计算复杂度低,也具有一定合理性。 但针对不同平台的网络结构中,度中心性的影响力效果未必能达到目标效果,而且社交网络中用户间关系的建立具有一定的偶然性,而且不同的用户间的关系强度也不同。度中心性没有考虑了节点的最局部信息,虽然对影响力进行了直接描述,但是没有考虑周围节点处所位置以及更高阶邻居。众学者在静态统计量的方法上,结合不同社交网络中相关信息,借鉴链接分析法以及建立概率模型来评估节点影响力,对社交网络节点影响力可以做到更有效的评估[66-67]。 2)基于链接分析算法的方法 链接分析算法(Link Analysis)主要应用在万维网中用来评估网页的流行性。通过超链接,万维网中的网页连接成一个网络,同时这个网络也具备了小世界网络的特征,且微博平台中的关注和粉丝关系与网页的链入与链出十分相似,因此链接分析法的思想也被应用在了微博社交网络中节点影响力的评估中。经典的算法是PageRank[68]和HITS算法[69](Hyperlink-Induced Topic Search)。 PageRank算法模型,是Google在搜索引擎结果中对网站排名的核心算法,核心思想通过计算页面链接的数量和质量,来确定网站的重要性的粗略估计,即节点的得分取决于指向它的节点的数量和这些节点的本身得分。即有越多的优质节点指向某节点时它的得分越高。 HITS算法是由Jon Kleinberg于1997年提出的。HITS算法模型中,有两类节点,权威(Authority)节点,和枢纽(Hub)节点。权威节点在网络中具有高权威性,枢纽节点具有很个指向边的节点。通过计算网络中每个节点的Authority权威值和Hub枢纽值来寻找高权威性的节点。即求值过程是在迭代中计算Authority和Hub值,直到收敛状态。Hub值和Authority值计算公式。 通过多数研究者发现,将链接分析法结合社交网络特性可以更好的对用户影响力进行评估,由于技术的快速发展,社交网络的多变性,因此如何将社交网络中的复杂数据和用户行为与相关算法进行结合,仍是需要我们继续研究的方向。 3)基于概率模型的方法 主要是建立概率模型对节点影响力进行预测。这么多学者将用户影响力作为参数对社交网络中的节点用户行为建立概率模型,并根据社交网络中已有的用户数据求解概率模型,得出用户影响力。 文献[70]认为用户间影响力越大、被影响用户的活跃度和转发意愿越高,则其转发另一个用户的信息的概率越大,所以利用用户影响力、转发意愿和活跃度等构建转发概率模型。通过用户发布的tweet数量、转发的tweet数和用户的历史转发行为数据,计算出用户活跃度、转发意愿和转发概率,进而社交网络中用户影响力。 文献[71]在度量影响力时融合了用户发布信息的主题生成过程,认为兴趣相似或经常联系的用户间影响力较强,用户的行为受其朋友的影响也受其个人兴趣的影响。基于这些假设,结合文本信息和网络结构对LDA模型进行扩展,在用户发布信息的基础上建立模型,通过解模型计算得出用户间基于主题的影响力。 文献[72]认为转发概率同样可以体现用户间的影响力,根据用户间的关注关系。历史转发记录,利用贝叶斯模型预测用户间的转发概率。 文献[73]考虑了用户建立关注关系的原因,用户被关注可能是与关注者兴趣投,也可能受用户的影响力影响。将基于用户的主题建模和基于主题的影响力评估相结合,并在同一个生成模型中进行计算,提出基于LDA算法模型的扩展算法模型FLDA模型(Followship-LDA)。[13] P. Bonacich. Factoring and weighting approaches to status scores and clique identification[J]. Journal of Mathematical Sociology, 1972, 2(1): 113-120 [14]ü,[J]. Physica A, 2012, 391(4): 1777-1787 [15] D. B. Chen, H. Gao, L. Lü, et al. Identifying influential nodes in large-scale directed networks: The role of clustering[J]. PLoS One, 2013, 8(10): e77455 [16], . [J].Physical Review E, 2005, 71(5): 122-133 [17][J].Sociometry,1977, 40(1): 35-41 [18] S. Dolev, Y. Elovici, R. Puzis. Routing betweenness centrality[J].Journal of the ACM, 2010, 57(4): 710-710 [19] Y. Gang,, H. Bo,etal. Efficientroutingoncomplexnetworks[J].PhysicalReviewE, 2005, 73(4): 46108 [20] E. Estrada, D. J. Higham, N. Hatano. Communicability betweenness in complex networks[J]. Physica A, 2009, 388(5): 764-774 [21][J].Social networks, 2005, 27(1): 39-54 [22] networks[J]. Social networks, 2000, 22(3): 187-200 [23] B. S. Brin, L. Page. The anatomy of a large scale hypertextual Web search engine[J]. Computer Networks & ISDN Systems, 1998, 30: 107-117 [24] P. Jomsri, S. Sanguansintukul, W. Choochaiwattana. CiteRank: combination similarity and static ranking with research paper searching[J]. International Journal of Internet Technology & Secured Transactions, 2011, 3(2): 161-177 [13][25][D].California: University of California. 2012 [26] J. Weng, E. P. Lim, J. Jiang, et al. Twitterrank: finding topic-sensitive influential twitterers[C]. Third International Conference on Web Search & Web Data Mining, ACM, 2010, 261-270 [27]: distinguishingbetweenprestigeandpopularity[J].NewJournalofPhysics,2012,14(14): 33033-33049 [28] J. Xuan, H. Jiang, , et al. Developer prioritization in bug repositories[C]. International Conference on Software Engineering, 2012, 25-35 [29]ü,[J]. Physica A, 2013, 404(24)47-55 [30] L. Lü, Y. C. Zhang, C H Yeung, et in social networks, the delicious case[J]. PLoS One, 2011, 6(6): e21202 [31][J].Authoritative sources in a hyperlinked environmen, 1999, 46(5): 604-632 [32](SALSA)andthe TKC effect[J]. Computer Networks, 2000, 33(2): 387-401 [33][J].Physical Review E, 2014, 90(5): 052808 [34] A. Banerjee, A. G. Chandrasekhar, E. Duflo, et al. Gossip: Identifying central individuals in a social network[R]. National Bureau of Economic Research, 2014. [35] percolation in social networks[J]. arXiv preprint arXiv:, 2015. [36] S. Y. Tan, J. Wu, L. Lü, et al. Efficient network disintegration under incomplete information: the comic effect of link prediction[J]. Scientific Reports, 2016, 6. [37]任晓龙,吕琳媛.网络重要节点排序方法综述[J].科学通报, 2014,59(13): 1175-1197 [63]贝克,晓冬.社会资本制胜:如何挖掘个人与企业网络中的隐性资源[M].上海交通大学出版社,2002. [64]天涯.六度分隔理论和150法则[EB/OL].|.[2010-07-14]. [65]Granovetter M Strength of Weak Ties[J]. American journal of sociology, 1973: 1360-1380. [66]王梓.社交网络中节点影响力评估算法研究[D].北京邮电大学, 2014. [67] Meeyoung Cha, Hamed Haddadi,Fabricio Benevenutoets. Measuring User Influence in Twitter: The Million Follower Fallacy[C]. Proceedings of the 4th International AAAI Conference on Weblogs and Social Media (ICWSM),2010:10-17 [3][68] Page, Lawrence, Brin, et al. The PageRank citation ranking[C]// BringingOrder to the Web. Stanford InfoLab. 1998: 1-14. [4][69]Kleinberg J M. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM, 1999, 46(5): 604-632. [70]Zibin Yin, Ya Zhang. Measuring Pair-Wise Social Influence inMicroblog[C], 2012 ASE/IEEE International Conference on SocialComputing and 2012 ASE/IEEE International Conference on Privacy,Security, Risk and Trust, 2012: 502-507. [71]Lu Liu, Jie Tang, Jiawei Han, Meng Jiang, Shiqiang Yang. Mining topic-level influence in heterogeneous networks[C]. Proceedings of the 19th ACMinternational conference on information and knowledge management, 2010: 199-208. [72] Qianni Deng, Yunjing Dai. How Your Friends Influence You: Quantifying Pairwise Influences on Twitter[C], International Conference on Cloud and Service Computing, 2012:185-192. [73] Bi, Bin, et al. Scalable Topic-Specific Influence Analysis on Microblogs[C], Proceedings of the 7th ACM international conference on Web search and data mining,2014: 513-522.
应该就是一种论文的模式吧网上有很多论文模型,就是什么前言啊,导论啊,分析啊,流程啊什么的
计量经济学中的双因素分析模型,如果在之后跟一个格兰杰因果关系检验就更好了
我们描述潜在的狄利克雷分配(LDA),它是一种用于离散数据集合(如文本语料库)的生成概率模型。 LDA是一个三层次的贝叶斯模型,其中一个集合中的每个项目都被建模
本次实验使用基于 LDA 主题聚类和主题分布可视化的方式研究顾客评论中的主题分布情况,并参考 《旅游民宿基本要求与评价》 标准中的评级指标辅助定义用户评价主题,
本文是滴滴发在KDD2020的paper。 文中指出用户响应预测的困难在于模型需要考虑真实物理环境中的历史信息和实时事件信息。 本文提出了使用动态构建的