我躲在墙角哭
本文是2010年发表在RecSys上的文章。本文主要介绍的是YouTube的个性化推荐的相关内容。 用户使用YouTube一般有三个原因: --看他们在其他地方找到的单一视频(直接导航); --围绕某个主题(搜索和目标导向浏览)查看特定视频; --受他们感兴趣内容的吸引。 推荐系统主要是针对第三点,目的是帮助用户发现他们感兴趣的高质量视频,并且推荐结果应该随时间和用户最近的行为更新。 在YouTube的推荐应用中,面临以下挑战: --用户上传的视频的元信息非常少; --视频时长比较短(一般小于10分钟); --用户行为短暂、多变而且噪声很多; --视频生命周期短。 这是YouTube的推荐和普通视频网站推荐不同的地方,这些挑战也是现在很多短视频公司关注的问题。 推荐系统算法应该保持时效性和新鲜性,另外,用户必须了解为什么向他们推荐视频,这样可以帮助用户根据自己的喜好改善推荐引擎。推荐的视频是通过用户的行为来生成的,用户的行为包括观看、收藏、喜欢等来作为种子视频,然后使用各种相关性和多样性的 signals 对视频集进行排序。推荐系统的工程设计方面,保持各个模块的独立性,并且还需要对故障具有恢复能力,并在出现部分故障时适度降级。 这里有2种数据可以考虑: 1)是内容数据视频流、视频元信息(标题,标签等); 2)用户行为数据,包括显性和隐性数据。前者是指用户评分、明确表示喜欢、不喜欢等行为,后者是浏览、观看等行为。 原始数据中还含有非常多的噪声,很多不可控因素会影响原始数据的质量。 作者将相关视频定义为用户在观看给定的种子视频 v 之后可能会观看的视频,使用关联规则挖掘技术来确定视频间的相关性。视频i和j的相关性定义为:将用户观看过的视频、喜欢过的视频、收藏过的视频等等作为种子集合,对它们进行N级的级联扩展,也就是YouTube选择召回的不是1步相关视频,而是n-步相关视频,即种子视频迭代n次后得到的相关视频集合,产生广阔和多样的候选结果。 在生成一组候选视频后,需要对这些相关视频进行排序。 用于排序的数据主要包括: --视频质量:包括观看次数、视频评分、评论、收视和上传时间等; --用户特征:考虑用户观看历史记录中种子视频的属性,例如观看次数和观看时间等; --多样性:要在被推荐的视频集合的类别中做一个平衡,以保持结果的多样性。 这些数据最终被线性组合起来,得到ranking的评分。 本文虽然是2010年发表的,近年来有很多内容升级复杂化了,但是作为初学者,本文的知识点和整体思路是非常值得学习的。当时的YouTube推荐系统的核心算法就是基于Item的协同过滤算法,也就是对于一个用户当前场景下和历史兴趣中喜欢的视频,找出它们相关的视频,并从这些视频中过滤掉已经看过的,剩下就是可以用户极有可能喜欢看的视频。 本文是Google的YouTube团队在推荐系统上DNN方面的尝试,发表在16年9月的RecSys会议。本文第1节介绍了YouTube推荐系统主要面临的挑战。第2节介绍了一个简要的系统概述。第3节更详细地描述了候选集生成模型,包括如何对其进行训练并用于提供推荐服务;实验结果显示模型添加特征和DNN深度后可以显著提升预测效果。第4节详细说明了排序模型,包括使用加权逻辑回归技术以训练预测预期观察时间的模型;实验结果表明,增加隐层网络宽度和深度都能提升模型效果。 最后,第5节做了总结。 -规模大:用户和视频的数量都很大,传统适合小规模的算法无法满足; -新鲜度:要求对新视频作出及时和合适的反馈; -噪音:YouTube上的历史用户行为由于稀疏性和各种不可观察的外部因素而不可预测。 我们很少能获得基本真实的用户满意度,更多的是隐式反馈噪声信号。 推荐系统的整体结构如图所示: 该系统由两个神经网络组成:一个用于候选集的生成,一个用于排序。候选集生成网络将用户的Youtube活动历史记录作为输入,然后从海量视频集中筛选出一小部分(数百个)以高精度与用户相关的视频。排序网络负责基于更加精细的特征对候选集进行排序,最后将最高得分的视频呈现给用户(按它们的得分排名)。 该模型把这个推荐问题转化成极端多分类问题:对于用户U和上下文C,把语料库V中的数百万个视频(分类)i,在时间t处做准确的分类,如下所示: 其中u为用户U的embedding表示,vi 代表各个候选视频的embedding。embedding是指稀疏实体(单个视频,用户等)到实数密集向量的映射;DNN的目标就是在用户信息和上下文信息为输入条件下学习用户的embedding向量u,这对于用softmax分类器来区分视频是有用的。 整个模型架构是包含三层全连接层,使用relu激活函数。把用户观看历史数据、搜索数据做一个embedding,加上age、gender等特征作为DNN的输入;输出分线上和离线训练两个部分。训练阶段使用softmax输出概率,在服务期间则直接使用接近最近邻搜索来进行生产候选的N个视频。 1)把用户观看过的视频id列表做embedding,并对所有历史观看视频ID的embedding做平均,得到观看embedding向量。 2)同时把用户搜索过的视频id列表也做如上的embedding,得到搜索embedding向量。 3)用户的人口统计学属性做embedding得到特征向量。 4)简单的二值和连续特征,例如用户的性别,登录状态和年龄作为归一化为[0,1]的实数值直接输入到网络中。 5)example age:机器学习系统总是利用历史的例子去预测未来,所以对过去总会有一个隐含的偏差。为了矫正偏差,YouTube把训练样本的年龄当作一个特征。 1.训练样本要用youtube上的所有视频观看记录,而不只是我们的推荐的视频的观看记录。 2.为每个用户生产固定数量的训练样本。 3.丢弃搜索信息的顺序,用无序的词袋表示搜索查询。 4.如下图,图(a)从历史观看记录中随机拿出来一个作为正样本来预测它,其余的历史观看记录作为上下文;这样其实泄露了未来的信息,并且忽略了任何非对称的消费模式。相反,图(b)是从用户的历史视频观看记录中随机拿出来一个作为正样本,然后只用这个视频之前的历史观看记录作为输入;这样的预测效果好得多。 – 深度为0:这时网络就是一个把连接起来的输入层转换一下,和softmax的256维输出对应起来 – 深度为1:第一层 256个节点,激活函数 是ReLU (rectified linear units 修正线性单元) – 深度为2:第一层512个节点,第二层256个节点,激活函数都是ReLU – 深度为3:第一层1024个节点,第二层512个节点,第三层256个节点,激活函数都是ReLU – 深度为4:第一层2048个节点,第二层1024个节点,第三层512个节点,第四层256个节点,激活函数都是ReLU 实验结果如下图所示: 可以看出,特征选取较多时,并且模型深度在四层时,可以得到较好的结果。 排序阶段最重要的任务就是精准的预估用户对视频的喜好程度。在排序阶段面对的数据集比较小,因此会采用更多的特征来计算。 作者在排序阶段所设计的DNN和上文的DNN的结构是类似的,但在训练阶段对视频的打分函数不再是softmax,而是采用的逻辑回归。如下图所示: 1)特征工程 尽管神经网络能够减轻人工特征工程的负担,但是我们依然需要花费精力将用户及视频数据转化为有效的特征。其主要的挑战在于如何表示用户动作的时间序列以及这些动作如何与正被评分的视频展现相关。但是通过对用户和物品之间的交互行为,我们能提取出一些有用信息,比如: 用户从这个频道里看过多少视频,用户上次观看这个主题的视频是什么时候等。 2)embedding 离散特征 每个维度都有独立的embedding空间,实际并非为所有的id进行embedding,比如视频id,只需要按照点击排序,选择top N视频进行embedding,其余置为0向量;而当多值离散特征映射成embedding之后,像在候选集生成阶段一样,在输入网络之前需要做一下加权平均。另外一个值得注意的是,离散特征对应的ID一样的时候,他们的底层embedding也是共享的,其优势在于提升泛化能力、加速训练、减小内存占用等。 3)连续特征归一化 对连续值类的特征进行归一化,作者设计一种积分函数将特征映射为一个服从[0,1]分布的变量;还可以对某些特征进行取根号、取对数和取平方的相关操作,使得网络有更强的表达能力。 给定正负样本,正样本为有点击视频,负样本为无点击视频;用观看时长对正样本做了加权,负样本都用单位权重(即不加权);采用的是基于交叉熵损失函数的逻辑回归模型训练的。 上表显示了在保留数据集上用不同的隐层配置得到的结果,这些结果表明增加隐层的宽度提升了效果,增加深度也是一样。 本文内容方面,介绍了YouTube基于深度学习的推荐系统,先用视频和用户的主要信息通过深度候选生成模型从百万级视频中找出数百个相关的视频,再用视频和用户的其他信息通过深度排序模型从数百个视频中找出几十个最有可能受用户欢迎的视频给用户。这样使得推荐系统对用户喜好的刻画能力大大增强,刻画的范围更加广泛。 本文结构方面,从推荐系统的整体结构讲起,划分为候选集生成和排序两个阶段,然后对每个阶段详细地展开讲解。整体过程条理清晰,逻辑严密,值得我们学习。
狂狼行天下
此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的 研究方向 和使用的 推荐技术 来分类,方便大家 快速检索自己感兴趣的文章 。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多 新的观点 以及 有意思的研究点 ,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:
还有些研究点也是值得一读的,比如推荐系统中的 冷启动 , 偏差与纠偏 , 序列推荐 , 可解释性,隐私保护 等,这些研究很有意思和启发性 ,有助于开拓大家的 研究思路**。
下面主要根据自己读题目或者摘要时的一些判断做的归类,按照 推荐系统研究方向分类 、 推荐技术分类 以及 专门实验性质的可复现型文章分类 ,可能存在漏归和错归的情况,请大家多多指正。
信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ,这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有 算法推荐功能 的资讯类APP,可能会导致我们 只看得到自己感兴趣的、认同的内容 ,进而让大家都活在自己的 小世界里 ,彼此之间 难以认同和沟通 。关于这部分的概念可参见知乎文章: 。有四篇文章探讨了这样的问题。
此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。
涉及排序学习的纠偏、用户的偏差探索等。
Debiased Explainable Pairwise Ranking from Implicit Feedback
Khalil Damak, Sami Khenissi, and Olfa Nasraoui
Mitigating Confounding Bias in Recommendation via Information Bottleneck
Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming
User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms
Ningxia Wang, and Li Chen
利用图学习、表征学习等做冷启动。
Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders
Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis
Shared Neural Item Representations for Completely Cold Start Problem
Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung
涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。
Evaluating Off-Policy Evaluation: Sensitivity and Robustness
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno
Fast Multi-Step Critiquing for VAE-based Recommender Systems
Diego Antognini and Boi Faltings
Online Evaluation Methods for the Causal Effect of Recommendations
Masahiro Sato
Towards Unified Metrics for Accuracy and Diversity for Recommender Systems
Javier Parapar and Filip Radlinski
涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下!
结合联邦学习做隐私保护等。
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction
Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley
Large-scale Interactive Conversational Recommendation System
Ali Montazeralghaem, James Allan, and Philip S. Thomas
EX3: Explainable Attribute-aware Item-set Recommendations
Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang
Towards Source-Aligned Variational Models for Cross-Domain Recommendation
Aghiles Salah, Thanh Binh Tran, and Hady Lauw
利用视觉信息做推荐。
Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma
Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang
探讨了美食场景下,多用户意图的推荐系统的交互设计。
“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface
Alain Starke, Edis Asotic, and Christoph Trattner
涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。
Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All
Florian Wilhelm
Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher Harald Steck and Dawen Liang
ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation
Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram
知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。
Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino
Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro
涉及训练、优化、检索、实时流等。
Jeremie Rappaz, Julian McAuley, and Karl Aberer
Reproducibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的 采样评估策略 ;对话推荐系统中 生成式和检索式的方法对比 ; 神经网络 推荐系统和 矩阵分解 推荐系统的对比。
通过论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;
企业客户信息管理系统的建立,有利于企业业务流程的重组、整合用户信息资源,有利于更加快速准确地来管理客户关系,在企业内部实现信息和资源的共享。下面是我为大家整理的
2020统计源期刊目录包括兵工技术类、管理类、海洋类、核技术类等。 扩展资料 2020统计源期刊目录包括兵工技术类、管理类、海洋类、核技术类、气象类、水利类、农
按照毕业论文开题报告的模板来写。一般是要写选题意义。研究现状,你要完成的内容,研究方法,一个计划表(用甘特图来表示),最后是参考文献(不要求太多,一般是10个左
为了增加网页的吸引力和可理解性,以及互动性,网页设计所起的作用十分重要。下面是我为大家整理的网页设计 毕业 论文,供大家参考。 网页设计毕业论文摘要 摘要:
我也不是很清楚的啊