小吕娃子
综述类: 1、Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions。最经典的推荐算法综述 2、Collaborative Filtering Recommender Systems. JB Schafer 关于协同过滤最经典的综述 3、Hybrid Recommender Systems: Survey and Experiments 4、项亮的博士论文《动态推荐系统关键技术研究》 5、个性化推荐系统的研究进展.周涛等 6、Recommender systems L Lü, M Medo, CH Yeung, YC Zhang, ZK Zhang, T Zhou Physics Reports 519 (1), 1-49 ( ) 个性化推荐系统评价方法综述.周涛等 协同过滤: factorization techniques for recommender systems. Y Koren collaborative filtering to weave an information Tapestry. David Goldberg (协同过滤第一次被提出) Collaborative Filtering Recommendation Algorithms. Badrul Sarwar , George Karypis, Joseph Konstan .etl of Dimensionality Reduction in Recommender System – A Case Study. Badrul M. Sarwar, George Karypis, Joseph A. Konstan etl Memory-Based Collaborative Filtering. Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu,and Hans-Peter Kriegel systems:a probabilistic analysis. Ravi Kumar Prabhakar recommendations: item-to-item collaborative filtering. Greg Linden, Brent Smith, and Jeremy York of Item-Based Top- N Recommendation Algorithms. George Karypis Matrix Factorization. Ruslan Salakhutdinov Decompositions,Alternating Least Squares and other Tales. Pierre Comon, Xavier Luciani, André De Almeida 基于内容的推荐: Recommendation Systems. Michael J. Pazzani and Daniel Billsus 基于标签的推荐: Recommender Systems: A State-of-the-Art Survey. Zi-Ke Zhang(张子柯), Tao Zhou(周 涛), and Yi-Cheng Zhang(张翼成) 推荐评估指标: 1、推荐系统评价指标综述. 朱郁筱,吕琳媛 2、Accurate is not always good:How Accuacy Metrics have hurt Recommender Systems 3、Evaluating Recommendation Systems. Guy Shani and Asela Gunawardana 4、Evaluating Collaborative Filtering Recommender Systems. JL Herlocker 推荐多样性和新颖性: 1. Improving recommendation lists through topic diversification. Cai-Nicolas Ziegler Sean M. McNee, Joseph Lausen Fusion-based Recommender System for Improving Serendipity Maximizing Aggregate Recommendation Diversity:A Graph-Theoretic Approach The Oblivion Problem:Exploiting forgotten items to improve Recommendation diversity A Framework for Recommending Collections Improving Recommendation Diversity. Keith Bradley and Barry Smyth 推荐系统中的隐私性保护: 1、Collaborative Filtering with Privacy. John Canny 2、Do You Trust Your Recommendations? An Exploration Of Security and Privacy Issues in Recommender Systems. Shyong K “Tony” Lam, Dan Frankowski, and John Ried. 3、Privacy-Enhanced Personalization. Alfred 4、Differentially Private Recommender Systems:Building Privacy into the Netflix Prize Contenders. Frank McSherry and Ilya Mironov Microsoft Research, Silicon Valley Campus 5、When being Weak is Brave: Privacy Issues in Recommender Systems. Naren Ramakrishnan, Benjamin J. Keller,and Batul J. Mirza 推荐冷启动问题: Boltzmann Machines for Cold Start Recommendations. Asela Preference Regression for Cold-start Recommendation. Seung-Taek Park, Wei Chu Cold-Start Problem in Recommendation Systems. Xuan Nhat and Metrics for Cold-Start Recommendations. Andrew I. Schein, Alexandrin P opescul, Lyle H. U ngar bandit(老虎机算法,可缓解冷启动问题): 1、Bandits and Recommender Systems. Jeremie Mary, Romaric Gaudel, Philippe Preux 2、Multi-Armed Bandit Algorithms and Empirical Evaluation 基于社交网络的推荐: 1. Social Recommender Systems. Ido Guy and David Carmel A Social Networ k-Based Recommender System(SNRS). Jianming He and Wesley W. Chu Measurement and Analysis of Online Social Networks. Referral Web:combining social networks and collaborative filtering 基于知识的推荐: 1、Knowledge-based recommender systems. Robin Burke 2、Case-Based Recommendation. Barry Smyth 3、Constraint-based Recommender Systems: Technologies and Research Issues. A. Felfernig. R. Burke 其他: Trust-aware Recommender Systems. Paolo Massa and Paolo Avesani
快乐尚龙
生物信息学毕业论文,如果你有范文的话,格式肯定就不用找了,但是选题就不行,必须要你导师认可了才行,我是在志文网写的,我写的是生物芯片技术中的应用方面的,生物信息学结合的,已经拿到了参考文献还有资料。
壹秒钟变rabbiT
很多产品想要加入推荐系统模块,最简单的就是做内容相似推荐,虽然技术简单但是效果却很好,对于增加用户粘性、提升用户留存有较多的效果,甚至很多产品后来加入了很多推荐模块之后,还是发现导流效果最好的依然是内容的相似推荐。 比如看完了一片《Python怎样读取MySQL》之后,在相似推荐中看到了一片题目为《Python操作MySQL的效果优化》的文章,很自然的就像多深入了解一下,于是就点进去看一看,那么对于整个网站来说,就会降低跳出率,增加用户的留存,是一个很好的用户体验。 实现一个内容相似推荐的方案比较简单,大体上包含以下步骤: 1、获取内容数据,比如标题、关键字、分类、甚至全文本; 一般文档、数据等内容都存储于mysql,可以使用python/java等语言直接读取mysql导出到文件.txt格式,或者直接用shell的mysql -e sql > 的方式导出。 一般情况下,全文本内容太散,不会作为候选字段,但是有些视频之类的实体,因为标题和简介文字太少,如果有详情全文本的话,也可以加入候选数据字段。 2、对内容数据做中文分词; 如果是python语言,可以使用“结巴分词”,地址为: 或者可以直接使用百度云的中文分词,百度的NLP自然语言处理技术还是很厉害的。 3、提取内容数据的关键词; 当分词之后,分词结果中包含很多“的”、“也”等无意义的词语,这些词语不能称之为关键词,一般会通过TF/IDF的方法计算每个词语的权重,将一个文档的所有词语的TF/IDF权重倒序排列,取TOPN个作为关键词; 如果使用的是jieba分词,那么直接就自带了提取关键词的支持;当然也可以自己计算,TF就是计算一篇文章中每个词语出现的次数、IDF就是这个词语在所有文章中出现的次数,TF除以IDF就是权重值; 4、将关键词映射成数字向量; 我们最终的目标是计算文档之间的相似度,要计算相似度那就需要把内容映射成向量,第一步就是先把每个词语映射成向量,映射的方式有几种: 使用one hot方法映射成向量 自己训练word2vec密度向量; 使用业界的训练好的word2vec向量 一般情况下,自己的数据集比较小,效果会比业界的word2vec效果差一些,比如这里推荐腾讯开源的200维度全网word2vec向量,地址在: 5、计算文档粒度的数字向量; 得到每个词语的向量之后,通过加权平均的方式可以计算整个文档的向量; 权重可以使用每个词语的频率次数归一化,或者直接平均即可; 6、计算文档之间的相似度; 使用cosin算法就能够计算文档向量之间的相似度; cosin算法很简单,java、python自己实现就可以,也可用或者中的相似度计算模块直接调用实现。 计算完之后,对于每个文档,将它跟每个文档的相似度做倒序排列,比如TOP 30个作为推荐的结果集合。 7、将文档的相似度关系存入mysql/redis等缓存; 第6步骤会得到一个这样的结果:(文档ID、相似文档ID列表),将这样的数据直接存入mysql或者redis,key就是文档ID,value是相似文档ID列表即可。 8、当页面展示一个内容的时候,提取相似推荐进行展示; 当用户访问一个页面的时候,后端服务python/java从缓存redis或者mysql中根据展示的页面的文档ID,提取相似ID列表; 因为前几步骤是提前计算好的列表,这里也可能做一些过滤已下线的事情,然后根据ID提取对应的标题、简介等信息,组装成相似推荐列表返回给前端即可; 总结 以上就是离线计算相似推荐的步骤,其实还可以用在线的方式进行,把这个问题按照搜索的架构实现即可,新来一个文档就分词、计算关键词列表存储,然后每次访问的时候根据关键词列表查询相同关键词列表的文档也可以实现。 当相似内容推荐上线后,就能够不断积累一些用户点击、查看文档的行为数据,基于行为数据就能训练协同过滤的模型,实现内容不相似但是行为相似的协同过滤推荐。
我才是黄蓉
生物信息学推荐系统设计关键词:推荐系统;生物信息学推荐系统(RecommenderSystem)[1]是个性化信息服务的主要技术之一,它实现的是“信息找人,按需服务”;通过对用户信息需要、兴趣爱好和访问历史等的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科;其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们,基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织,但是用户无法从大量的生物数据中寻求自己感兴趣的部分(著名的生物信息学网站NCBI(美国国立生物技术信息中心),仅仅是小孢子虫(Microsporidia)的DNA序列就达3399种),因此在生物二次数据库上建立个性化推荐系统,能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下,生物信息学推荐系统将发挥强大的优势。1推荐系统的工作流程应用在不同领域的推荐系统,其体系结构也不完全相同。一般而言,推荐系统的工作流程[5]如图1所示。(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等,所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6],即显式获取(Explicit)和隐式获取(Implicit),由于用户的很多行为都能暗示用户的喜好,因此隐式获取信息的准确性比显式高一些。(2)信息处理。信息获取阶段所获得的用户信息,一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式,最常用的是用m×n维的用户—项目矩阵R来表示,矩阵中的每个元素Rij=第i个用户对第j个项目的评价,可以当做数值处理,矩阵R被称为用户—项目矩阵。(3)个性化推荐。根据形成推荐的方法的不同可以分为三种,即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目,并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目,通过用户与近邻之间的“交流”,发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户,完成对用户的推荐。目前最常用的推荐可视化方法是Top-N列表[7],按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。2生物信息学推荐系统的设计综合各种推荐技术的性能与优缺点,本文构造的生物信息学推荐系统的总体结构如图2所示。生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时,所留下的登录信息通过网站传递到推荐算法部分;推荐算法根据该用户的用户名从数据库提取出推荐列表,并返回到网站的用户界面;用户访问的记录返回到数据库,系统定时调用推荐算法,对数据库中用户访问信息的数据进行分析计算,形成推荐列表。本系统采用基于近邻的协同过滤推荐算法,其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分,两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大,使得系统的可扩展性降低。本系统采用SVD矩阵降维方法,减少用户—项目矩阵的维数,在计算用户相似度时大大降低了运算的次数,提高了推荐算法的效率。(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单,以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后,系统会自动为该用户创建一个“信息矩阵”,该矩阵保存了所有项目的ID号以及相应的用户评价,保存的格式为:S+编号+用户评价,S用于标记项目,每个项目编号及其评价都以“S”相隔开;编号是唯一的,占5位;用户评价是用户点击该项目的次数,规定其范围是0~100,系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。(2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵,使用户信息矩阵数值化,假设系统中有M个用户和N个项目,信息处理的目的就是创建一个M×N的矩阵R,R[I][J]代表用户I对项目J的评价。(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果,而且在系统较大的情况下,它既不能精确地产生推荐集,又忽视了数据之间潜在的关系,发现不了用户潜在的兴趣,而且庞大的矩阵增加了计算的复杂度,因此有必要对该矩阵的表述方式做优化,进行矩阵处理。维数简化是一种较好的方法,本文提出的算法应用单值分解(SingularValueDecomposition,SVD)技术[8],对用户—项目矩阵进行维数简化。(4)相似度计算。得到降维以后的用户矩阵US,就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。(5)计算用户邻居。该方法有两种[10],即基于中心的邻居(Center-BasedNeighbor)和集合邻居(AggregateNeighbor)。本系统采用了第一种方法,直接找出与用户相似度最高的前N个用户作为邻居,邻居个数N由系统设定,比如规定N=5。(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中,而在前面的工作中已找出各用户的邻居以及与用户的相似度,推荐形成部分只需要对当前登录用户进行计算。推荐策略是:对当前用户已经访问过的项目不再进行推荐,推荐的范围是用户没有访问的项目,其目的是推荐用户潜在感兴趣的项目;考虑到系统的项目比较多,用户交互项目的数量很大,所以只筛选出推荐度最大的N个项目,形成Top-N推荐集,设定N=5。3生物信息学推荐系统的实现生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息,用SQLServer2000实现。数据访问层实现了与用户交互必需的存储过程以及触发器,也使用SQLServer2000,主要完成以下功能:初始化新用户信息矩阵;插入新项目时更新所有用户的信息矩阵;用户点击项目时更新该用户对项目的评价;删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程,在这里不做详细的介绍。推荐算法完成整个个性化推荐的任务,用Java实现。(1)数据连接类DataCon。该类完成与SQLServer2000数据库的连接,在连接之前必须要下载三个与SQLServer连接相关的包,即、和。(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换,静态成员Con调用()获得数据库连接,然后对数据库进行各种操作。把所有方法编写成静态,便于推荐算法中不创建对象就可以直接调用。(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类,RecmmendSource用于保存当前用户的推荐列表,包括推荐项目号和推荐度;CurrentUserNeighbor用于保存邻居信息,包括邻居ID号、相似度及其访问信息。(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法,主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。下面给出方法FCArithmetic的关键代码:Matrixuser_item=();//获取用户—项目矩阵user_item=(user_item);//调用SVD降维方法Vectorc_uservector=newVector();//当前用户向量Vectoro_uservector=newVector();//其他用户向量Vectorc_user_correlate_vector=newVector();//当前用户与其他用户之间相似度向量for(inti=0;ifor(intj=0;((i,j));//1.获得当前用户向量for(intk=0;();for(intl=0;((k,l));//2.获得其他用户的向量//3.计算当前用户与其他用户的相似度usercorrelativity=(c_uservector,o_uservector);(usercorrelativity);}//4.根据当前用户与其他用户的相似度,计算其邻居(i,c_user_correlate_vector);}根据邻居形成方法FCArithmetic,可以得到每个用户的邻居。作为测试用例,图6显示用户Jack与系统中一部分用户的相似度,可以看出它与自己的相似度必定最高;并且它与用户Sugx访问了相同的项目,它们之间的相似度也为1,具有极高的相似度。4结束语在传统推荐系统的基础上,结合当前生物信息学网站的特点,提出一个基于生物信息平台的推荐系统,解决了传统生物信息网站平台信息迷茫的缺点,为用户推荐其感兴趣物种的DNA或蛋白质序列。优点在于协同过滤的推荐算法能发现用户潜在的兴趣,能促进生物学家之间的交流;推荐算法的邻居形成与推荐形成两部分可以单独运行,减少了系统的开销。进一步的工作是分析生物数据的特点及生物数据之间的关系,增加用户和项目数量,更好地发挥推荐系统的优势。参考文献:[1]PAULR,[J].CommunicationsoftheACM,1997,40(3):56-58.[2]陈新.生物信息学简介[EB/OL].(2001)..[3]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004(11):58-60.
此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照
都挺好用的,准不准只是相对的,如果高校或单位要求用PaperYY,那么PaperYY查重结果就最准的,每个单位要求的查重系统不一样,各个查重系统收录数据和算法都
1、首先,PPT封面应该有:毕设题目、答辩人、指导教师以及答辩日期;2、其次,需要有一个目录页来清楚的阐述本次答辩的主要内容有道哪些;3、接下来,就到了答辩的主
论文:地址: 论文题目:《xDeepFM: Combining Explicit and Implicit Feature Interactions f
一般都会使用知乎和早检测查重系统,但是知乎价格比较贵,早检测就是我经常查重的软件了,价格适中也操作方便。