用户推荐的协同过滤模型研究论文

2个回答默认排序

默认排序

按时间排序

Cathyshenzhen

已采纳

论文讨论的主要是隐性反馈协同过滤解决方案，先来明确两个概念：显性反馈和隐性反馈：

显性反馈行为包括用户明确表示对物品喜好的行为隐性反馈行为指的是那些不能明确反应用户喜好

举例来说：

很多应用场景，并没有显性反馈的存在。因为大部分用户是沉默的用户，并不会明确给系统反馈“我对这个物品的偏好值是多少”。因此，推荐系统可以根据大量的隐性反馈来推断用户的偏好值。

根据已得到的隐性反馈数据，我们将用户-条目交互矩阵Y定义为：

但是，Yui为1仅代表二者有交互记录，并不代表用户u真的喜欢项目i，同理，u和i没有交互记录也不能代表u不喜欢i。这对隐性反馈的学习提出了挑战，因为它提供了关于用户偏好的噪声信号。虽然观察到的条目至少反映了用户对项目的兴趣，但是未查看的条目可能只是丢失数据，并且这其中存在自然稀疏的负反馈。在隐性反馈上的推荐问题可以表达为估算矩阵 Y中未观察到的条目的分数问题（这个分数被用来评估项目的排名）。形式上它可以被抽象为学习函数：

为了处理缺失数据，有两种常见的做法：要么将所有未观察到的条目视作负反馈，要么从没有观察到条目中抽样作为负反馈实例。

传统的求解方法是矩阵分解(MF,Matrix Factorization)，为每个user和item找到一个隐向量，问题变为：

这里的 K表示隐式空间（latent space）的维度。正如我们所看到的，MF模型是用户和项目的潜在因素的双向互动，它假设潜在空间的每一维都是相互独立的并且用相同的权重将它们线性结合。因此，MF可视为隐向量（latent factor）的线性模型。

论文中给出了一个例子来说明这种算法的局限性：

1(a)是user-item交互矩阵，1(b)是用户的隐式空间，论文中强调了两点来理解这张图片： 1）MF将user和item分布到同样的隐式空间中，那么两个用户之间的相似性也可以用二者在隐式空间中的向量夹角来确定。 2）使用Jaccard系数来作为真实的用户相似性。通过MF计算的相似性与Jaccard系数计算的相似性也可以用来评判MF的性能。我们先来看看Jaccard系数

上面的示例显示了MF因为使用一个简单的和固定的内积，来估计在低维潜在空间中用户-项目的复杂交互，从而所可能造成的限制。解决该问题的方法之一是使用大量的潜在因子 K (就是隐式空间向量的维度)。然而这可能对模型的泛化能力产生不利的影响（e.g. 数据的过拟合问题），特别是在稀疏的集合上。论文通过使用DNNs从数据中学习交互函数，突破了这个限制。

论文先提出了一种通用框架：

针对这个通用框架，论文提出了三种不同的实现，三种实现可以用一张图来说明：

GMF ：上图中仅使用GMF layer，就得到了第一种实现方式GMF，GMF被称为广义矩阵分解，输出层的计算公式为：

MLP ：上图中仅使用右侧的MLP Layers，就得到了第二种学习方式，通过多层神经网络来学习user和item的隐向量。这样，输出层的计算公式为：

NeuMF ：结合GMF和MLP，得到的就是第三种实现方式，上图是该方式的完整实现，输出层的计算公式为：

论文的实验用于回答以下研究问题：

RQ1 我们提出的NCF方法是否胜过 state-of-the-art 的隐性协同过滤方法？

RQ2 我们提出的优化框架（消极样本抽样的log loss）怎样为推荐任务服务？

RQ3 更深的隐藏单元是不是有助于对用户项目交互数据的学习？

接下来，首先介绍实验设置，其次是回答上述三个问题。

数据集使用了两个公开的数据集：MovieLens 和 Pinterest 两个数据集，它们的特征总结在表1中

1.MovieLens ：这个电影评级数据集被广泛地用于评估协同过滤算法。论文使用的是包含一百万个评分的版本，每个用户至少有20个评分。虽然这是显性反馈数据集，但论文有意选择它来挖掘（模型）从显式反馈中学习隐性信号的表现。为此，论文将其转换为隐式数据，其中每个条目被标记为0或1表示用户是否已对该项进行评级。

2.Pinterest ：这个隐含的反馈数据的构建用于评估基于内容的图像推荐。原始数据非常大但是很稀疏。例如，超过20％的用户只有一个pin（pin类似于赞一下），使得难以用来评估协同过滤算法。因此，论文使用与MovieLens数据集相同的方式过滤数据集：仅保留至少有过20个pin的用户。处理后得到了包含55,187个用户和1,580,809个项目交互的数据的子集。每个交互都表示用户是否将图像pin在自己的主页上。

评估方案：为了评价项目推荐的性能，论文采用了leave-one-out方法（留一法）评估，该方法已被广泛地应用于文献。即：对于每个用户，论文将其最近的一次交互作为测试集（数据集一般都有时间戳），并利用余下的培训作为训练集。由于在评估过程中为每个用户排列所有项目花费的时间太多，所以遵循一般的策略，随机抽取100个不与用户进行交互的项目，将测试项目排列在这100个项目中。排名列表的性能由命中率（HR）和归一化折扣累积增益（NDCG）来衡量。没有特别说明的话，论文将这两个指标的排名列表截断为10。如此一来，HR直观地衡量测试项目是否存在于前10名列表中，而NDCG通过将较高分数指定为顶级排名来计算命中的位置。论文计算了每个测试用户的这两个指标，并求取了平均分。

−ItemPop 。按项目的互动次数判断它的受欢迎程度，从而对项目进行排名。这对基于评估推荐性能来说是一种非个性化的方法。 −ItemKNN 。这是基于项目的标准协同过滤方法。 −BPR 。该方法优化了使用公式的MF模型，该模型具有成对排序损失，BPR调整它使其可以从隐式反馈中学习。它是项目推荐基准的有力竞争者。论文使用固定的学习率，改变它并报告了它最佳的性能。 −eALS 。这是项目推荐的 state-of-the-art 的MF方法。

HR（命中率）和 NDCG（归一化折损累计增益），HR直观地衡量测试项目是否存在于前10名列表中，而NDCG通过将较高分数指定为顶级排名来计算命中的位置，重点介绍NDCG

NDCG这个名字可能比较吓人,但背后的思想却很简单.一个推荐系统返回一些item并形成一个列表,我们想要计算这个列表有多好,每一项都有一个相关的评分值,通常这些评分值是一个非负数,这就是gain(增益).此外对于这些没有用户反馈的项我们通常设置起增益为0.

累计增益（CG）

我们将这些增益相加就是Cumulative Gain(累计增益,CG),CG就是将每个推荐结果相关性的分支累加后作为整个推荐列表的得分.

rel i 表示处于位置i的推荐结果的相关性,k表示要考察的推荐列表的大小.

折损累计增益（DCG）

CG的一个缺点是没有考虑每个推荐结果处于不同位置对整个推荐效果的影响,例如我们总是希望相关性高的结果应该排在前面 .显然,如果相关性低的结果排在靠前的位置会严重影响用户的体验,所以在CG的基础上引入位置影响因素,即DCG(Discounted Cumulative Gain),这里指的是对于排名靠后推荐结果的推荐效果进行“打折处理”。假设排序越往后，价值越低。到第i个位置的时候，它的价值是 1/log 2 (i+1)，那么第i个结果产生的效益就是 rel i * 1/log 2 (i+1)，所以：:

从上面的式子可以得到两个结论: 1.推荐结果的相关性越大,DCG越大 2.相关性好的排在推荐列表前面的话,推荐效果越好,DCG越大.

归一化折损累计增益（NDCG）

DCG仍然有不足之处,即不同的推荐的推荐列表之间,很难进行横向的评估,而我们评估一个推荐系统不可能仅使用一个用户的推荐列表及相应结果进行评估,而是对整个测试机中的用户及其推荐列表结果进行评估 .那么不同的用户的推荐列表的评估分数就需要进行归一化,也即NDCG(Normalized Discounted Cumulative Gain,归一化折损累计增益). 在介绍NDCG之前还需要知道另一个概念,IDCG(Ideal DCG),指推荐系统为某一用户返回的最好推荐结果列表,即假设返回结果按照相关性排序,最相关的结果放在前面,此序列的DCG为IDCG.因此DCG的值介于(0,IDCG],故NDCG的值介于(0,1]。NDCG计算公式：

IDCG为理想情况下最大的DCG值。

其中 |REL| 表示，结果按照相关性从大到小的顺序排序，取前p个结果组成的集合。也就是按照最优的方式对结果进行排序。

实际的例子

假设推荐系统返回来的5个结果，其模型评分分别是 1.2、0.7、0.1、0.2、4.0。

我们首先通过公式4.2计算出DCG值为2.39278，按照公式4.4来计算出iDCG的值为3.6309

最后通过公式4.3计算出NDCG为65%

更多的推荐模型评估方法参考：

图4(Figure 4)显示了 HR@10 和 NDCG@10 相对于预测因素数量的性能。图5(Figure 5)显示了Top-K推荐列表的性能，排名位置K的范围为1到10。总的来看论文提出的NeuMF模型（结合GMF和MLP）效果不错，对比其他方法都要好。

Figure 6 表示将模型看作一个二分类任务并使用logloss作为损失函数时的训练效果。 Figure7 表示采样率对模型性能的影响（横轴是采样率，即负样本与正样本的比例）。

上面的表格设置了两个变量，分别是Embedding的长度K和神经网络的层数，使用类似网格搜索的方式展示了在两个数据集上的结果。增加Embedding的长度和神经网络的层数是可以提升训练效果的。

161 评论 2小时前发布

欧阳小七

这个概念经常在机器学习的文章中看到，但由于接触不久，所以一直都是一知半解，没有好好了解过。首先从字面上理解，“协同”需要一个“集体“，“过滤”就应该是晒选的意思，那么协同过滤总的来说就是通过“集体”来“筛选”，以评分推荐系统为例子，这里的“协同”我个人理解就是集合”众多人的评价”，这里的“评价”，就是“对集体都接触过的事物进行打分”，这样大概就能通过一些共同的事物反应出用户不同的”价值观“，然后通过这样的价值观来”筛选“出价值观高度相似的人，再相互推荐共同都喜爱的东西。那么这样的推荐就很有可能是大家都需要的。经过资料洗礼过后，得知cf现在的两大方向，一种是以记忆为基础（Memory-base）,另一种是基于模型（Model-based Collaborative Filtering）。普及的比较多的前者，它基于关注的目标，又分为基于用户的协同过滤和基于项目的协同过滤，上面举的一个简单的评分推荐系统的例子就可以说是基于用户的协同过滤，它是通过用户对共同物品的“主观价值”来筛选相似用户，再互补评分高的商品，从而达到推荐商品的目的；那么基于项目的意思就是通过这个用户集体对商品集的评价，在物品的角度上去寻找相似度高的物品，达到推荐商品的效果。虽然针对的目标不通，但以我个人理解，大体上都是依赖这个用户集营造的“价值观”，只不过区别在于，基于用户的CF是“关心”各个用户的“主观价值”上的“区别”，而基于项目的CF则是要基于这整个用户集对项目集的“普世价值观”，来甄别出“物品”上的差异。不知道这么比喻恰不恰当哈，“普世”我这边理解就是“大多数”，是一种整体趋势的意思。价值观比较“抽象”的话，再直接点这里的“价值观”就相当于物理中的“参考系”。但是以上两种方法在面对，不是每个用户对大多数商品都做出过评价（数据稀疏）时就无能为力，所以基于这个问题就引导出了基于模型（Model-based ）的CF，我在最近的论文中接触到的就是一个“矩阵分解”的协同过滤，它能够基于现有的数据得到一个模型，再用此模型进行推荐。那么是如何做到的呢？接下来看看矩阵分解。假设我先在有一个关于用户对音乐评分的矩阵如下图：只有上述的数据是很难使用户相互推荐音乐的，因为可以看出用户本身听过的歌就不够多，那么如何使数据更加“饱满”呢？这时正是需要矩阵分解的时候，矩阵分解算法的数学理论基础是矩阵的行列变换。行列变换中又有以下规则，我们知道矩阵A进行行变换相当于A左乘一个矩阵，矩阵A进行列变换等价于矩阵A右乘一个矩阵，因此矩阵A可以表示为A=PEQ=PQ（E是标准阵）。形象的表示如下图：矩阵分解的目的就是把一个稀疏的用户评分矩阵分解成用户因子矩阵和项目因子矩阵相乘的形式R=U(转置)*I，我们的目的就是最后再让两个因子矩阵反乘回去得到饱满的用户评分矩阵。那么这个用户,项目因子是个什么东西呢？我们接着上面的音乐评分的形式说，一首歌可能包含多种音乐风格，我们可以量化风格，体现各种风格在一首歌中的比重，那么这里的“潜在因子”我们就可以当作“音乐风格”，K个因子就可以看作K种风格。譬如下图：可以说，这些因子就是我们的模型中的重要参数，个人理解分解出来的这两个因子矩阵就可以说是基于模型的CF中的，“模型”的了，其实我觉得可以类比线性模型中的参数，我们的回归模型最终重要的不就是公式中的各项参数吗，这两个因子矩阵其实就是我们这个模型中的重要参数，参数知道了模型也就求出来了。如果不了解线性模型可以参考吴恩达大大的机器学习课程，里面介绍的很详细，不像我这边一知半哈。那么这些个值具体是怎么得出来的呢？过程和求线性回归也很像，接下来就是相关的简单推倒，首先，我们假设，真实的用户评分和我们预测评分的差遵循高斯分布 R用是评分矩阵 U是用户因子矩阵，V是项目因子矩阵接下来就是极大似然估计，使，在现有数据下概率最大化类比求线性模型，就能够了解思想很相似，所以应该同样是运用了似然估计的思想，要使值最大，式子两边同时取对数，可以看到，如果要使概率最大，那么公式的第一项就要最小，是不是想到了什么，没错接下来就可以看到最小二乘法的式子。线性模型我们遇到这个情况一般怎么做，没错，就是梯度下降。首先求偏导数最后就是梯度下降的矩阵因子更新公式：接下来迭代到自己设置的阈值收敛就能得到局部最优解了。下面是我根据上述矩阵分解的思想随机的模拟实践，可以自行感受一下准度，可能写搓了点～注释：以上诸多图片材料来自网上多篇博客文章还有方便实用sklearn的中文API文档

296 评论 11小时前发布

用户推荐的协同过滤模型研究论文

2个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序