lda主题模型论文

2个回答默认排序

默认排序

按时间排序

馋死宝宝啦

已采纳

1. 推荐系统的意义互联网大爆炸时期的信息过载的解决方案：对用户而言：找到好玩的东西，帮助决策，发现新鲜事物。对商家而言：提供个性化服务，提高信任度和粘性，增加营收。 2. 推荐系统的构成前台的展示页面，后台的日志系统，推荐算法等部分组成，如下图所示：3 推荐系统的评估准确度 RMSE（均方根误差）,MAE（平均绝对误差） Top N推荐主要为：准确率precison，召回率recall指标准确率说的是推荐的10条信息中用户真正感兴趣的条数召回率说的是用户真正感兴趣的与你推荐条数占比。下图中R(U)为推荐，T(U)为用户选择的：关于更多可以参考：深度探讨机器学习中的ROC和PR曲线覆盖率推荐出来的物品占总物品集合的比例；多样性推荐列表中物品两两之间的差异性；新颖性，惊喜度，实时性，商业目标等 4. 推荐算法基于内容的推荐算法优点：基于用户喜欢的物品的属性/内容进行推荐需要分析内容，无需考虑用户与用户之间的关联缺点：要求内容容易抽取成有意义的特征，特征内容具有良好的结构性；不能很好的处理一词多义和一义多词带来的语义问题；步骤：对于要推荐的物品建立一份特征对于用户喜欢的物品建立一份特征计算相似度比如说在文档中常用的余弦相似度：协同过滤基于用户的协同过滤(UserCF) 算法步骤：找到和目标用户兴趣相似的用户集合, 计算用户的相似度；找到“近邻”，对近邻在新物品的评价(打分)加权推荐下图一个非常直观的例子：兔子和米老鼠最相似，则给米老鼠推荐兔子喜欢的物品：基于物品的协同过滤(ItemCF) 算法步骤：对于有相同用户交互的物品，计算物品相似度；找到物品“近邻”，进行推荐相似性的度量：协同过滤的对比：其中ItemCF一定情况下可以缓解冷启动的现象，而且其更加稳定，而且其更有说服了。协同过滤优点基于用户行为，因此对推荐内容无需先验知识只需要用户和商品关联矩阵即可，结构简单在用户行为丰富的情况下，效果好协同过滤缺点需要大量的显性/隐性用户行为需要通过完全相同的商品关联，相似的不行假定用户的兴趣完全取决于之前的行为，而和当前上下文环境无关在数据稀疏的情况下受影响。可以考虑二度关联。冷启动问题对于新用户所有推荐系统对于新用户都有这个问题推荐非常热门的商品收集一些信息在用户注册的时候收集一些信息在用户注册完之后，用一些互动游戏等确定喜欢与不喜欢对于新商品根据本身的属性，求与原来商品的相似度。 Item-based协同过滤可以推荐出去。基于矩阵分解的推荐算法原理：根据已有的评分矩阵（非常稀疏），分解为低维的用户特征矩阵（评分者对各个因子的喜好程度）以及商品特征矩阵（商品包含各个因子的程度），最后再反过来分析数据（用户特征矩阵与商品特征矩阵相乘得到新的评分矩阵）得出预测结果； SVD SVD的时间复杂度为O(m^3),M经常是稀疏且有空缺值的，简单的做法是将空缺值补上随机值，那么就可以svd分解了，但是推荐效果一般，因此一般将该问题转化为优化问题；同时原始矩阵中0很多，不宜用0填补。混合推荐（1）加权的混合: 用线性公式将几种不同的推荐按照一定权重组合起来，具体权重的值需要在测试数据集上反复实验，从而达到最好的推荐效果；（2）切换的混合：对于不同的情况（数据量，系统运行状况，用户和物品的数目等），推荐策略可能有很大的不同，那么切换的混合方式，就是允许在不同的情况下，选择最为合适的推荐机制计算推荐；（3）分区的混合：采用多种推荐机制，并将不同的推荐结果分不同的区显示给用户；其实，Amazon，当当网等很多电子商务网站都是采用这样的方式，用户可以得到很全面的推荐，也更容易找到他们想要的东西；（4）分层的混合：采用多种推荐机制，并将一个推荐机制的结果作为另一个的输入，从而综合各个推荐机制的优缺点，得到更加准确的推荐；用例除了推断出这些主题，LDA还可以推断每篇文章在主题上的分布。例如，X文章大概有60%在讨论“空间探索”，30%关于“电脑”，10%关于其他主题。这些主题分布可以有多种用途：聚类：主题是聚类中心，文章和多个类簇（主题）关联。聚类对整理和总结文章集合很有帮助。参看Blei教授和Lafferty教授对于Science杂志的文章生成的总结。点击一个主题，看到该主题下一系列文章。特征生成：LDA可以生成特征供其他机器学习算法使用。如前所述，LDA为每一篇文章推断一个主题分布；K个主题即是K个数值特征。这些特征可以被用在像逻辑回归或者决策树这样的算法中用于预测任务。降维：每篇文章在主题上的分布提供了一个文章的简洁总结。在这个降维了的特征空间中进行文章比较，比在原始的词汇的特征空间中更有意义。

260 评论 1小时前发布

西西里的蘑菇

LDA是生成式概率模型。基本的观点是一个文档由多个隐主题生成，每个主题是由单词的分布式表达。

LDA假设在语料库D中每个文档的生成过程如下：

1.主题数量k已知

2.单词的概率由参数控制

参数是一个k 维的向量，并且每个元素大于0，服从Gamma 分布

已知参数，联合分布主题混合的参数 , 表示主题的参数 z,表示文档的参数w:

对积分，并对z求和得到关于文档的边缘分布：

所有文档的边缘分布相乘，得到整个语料库的概率：

参数和参数是语料库级别的参数，在生成语料库的过程中使用。

变量是文档级别的参数，每个文档采样一次。

变量和是单词级别的参数，每个文档中每个单词都采样一次.

一组随机变量如果联合分布和变量的排列顺序无关，则称这组变量是可交换的。

在LDA中，我们假设单词是由主题生成的，并且这些主题在文档中是无限可交换的，

其中是关于主题多项式分布的随机变量。

通过对隐主题变量z积分。可以得到单词分布：

这是一个随机量，因为他依赖于

我们定义接下来的生成过程，对于一个文档 w

1.选择θ∼Dir(α)

2.对于每个N的单词 :

(a)从中选择一个单词

这个过程定义一篇文档的边缘分布看成一个连续的混合分布

inference的关心的问题使用LDA来计算隐变量z的后验分布：

这个分布通常很难计算。通过normaliza 分布，并且计算边缘分布。

这个后验分布很难计算，但是通过一些变分推断的方法还是可以得到。

基本的观点是使用jensen's 不等式来获得一个调整的下界，变分参数通过优化过程来试图找到最接近的可能的下界。

一个简单的方式是通过鲜花原始的计算图，将一些边和节点移去。在LDA中，原始的图是左图，通过把移去，生成右边含有自由变分参数的图。新的计算图使用如下变分分布：

是狄利克雷参数，多项式参数(φ1 , . . . , φ N ) 是自由变量参数。

得到简化的概率分布后，下一步是开始的优化问题是决定变分参数的值。

优化这个变分参数是通过最小化KL散度来实现，并且吧他们设为0，得到以下的更新参数。

在文本的语言中，优化参数是文档制定的。特别的，我们认为狄利克雷参数是一个文档的主题表达。

经验贝叶斯方法来估计LDA中的参数。给定一个语料D，我们希望找到参数来最大化边缘似然概率：

计算比较困难，可以通过变分EM算法来估计。

step,对于每个文档，找到最优的变分参数。

step, 最大化结果的下界。

重复上述几步直到下界收敛。

148 评论 3小时前发布

lda主题模型论文

2个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序