基于隐式反馈的个性化信息过滤方法
发布时间:2015-07-13 09:46
摘 要 如何为用户提供更为满意的、符合其个性化的信息过滤,已成为一个重要的研究课题。针对这一情况,本文提出了一个基于隐式反馈的个性化信息过滤的设计思路和实现方法即通过观察用户与系统交互的动作学习用户的兴趣,根据用户兴趣帮助用户过滤掉那些他不感兴趣的信息。并对其涉及的关键技术用户兴趣建模,文档的表示和信息的过滤等方面进行了详细描述,并对当前存在的问题进行了探讨。
图1 个性化信息过滤模型
关键字 Agent;用户兴趣模型;显示反馈;隐式反馈;个性化信息过滤
0 引言
Internet已成为人们获取信息的一个重要途径,网上的信息以极快的速度不断的增长和变化,目前人们主要利用传统的搜索引擎来查询信息。信息检索技术满足了人们一定的需要,但由于其通用的性质,仍不能满足用户个性化的信息需求。所以在信息动态变化的情况下筛选出用户感兴趣的信息,就需要进行信息过滤,但固定不变的软件很难适应用户变化多样的兴趣。
这正是个性化过滤所要解决的问题,因此引入Agent技术,AI领域的Agent技术为实现信息搜索的智能化、个性化及主动性带来了生机,使个性化信息过滤的实现成为可能[1]。利用智能Agent学习用户信息来学习用户的兴趣和行为,从而实现主动服务目的,即分析用户的兴趣所在,推断出用户的使用意图,提供一些动态的、即时的用户个性化信息,过滤系统以此过滤出用户所需要的信息从而可以提高用户检索的效率,使用户能快速、准确地定位到所需要的信息。
本文提出了一个信息过滤方法即通过观察用户与系统交互的动作学习用户的兴趣。首先系统是从用户的显式反馈中进行学习,在这个学习过程中基于观察用户的动作隐式地估计相关反馈以便于更新用户profiles。
1 Agent在个性化信息过滤方面的优势
将Agent应用于Web信息检索为用户提供个性化过滤正是基于Agent本身的特性。
Agent的自主性:Agent能够在没有用户监控和指导的情况下能依靠自身的决策机制决定动作。
Agent的学习性:Agent作为一个独立的个体能自学习、自增长,能与用户并行工作,将从用户处得来的用户的兴趣、爱好、习惯等信息直接转化为内部表示,存放在知识库中,建立用户模型来指导自己的决策,使之符合用户需求。
Agent的社会性: Agent能与具有相同兴趣和爱好的其它Agent进行交流为用户提供更好的信息。
Agent的这些特性应用到信息发现或信息过滤中可以充分发挥Agent的优势。Agent能够根据用户的兴趣和爱好自主地到网上搜集信息能够对用户的行为和反馈作进一步的学习,使搜索结果更符合用户的需求。
总之,智能Agent的使用将大大提高Web信息检索的自主性、灵活性和精确性给用户提供了更多的便利。
2 隐式反馈的个性化信息过滤
本文的个性化信息过滤模型如图1所示,将Agent引入到信息过滤中,由它记录用户的个性化信息,下面我们讨论基于隐式反馈的个性化信息过滤技术与实现方法。
图1 个性化信息过滤模型
2.1 产生用户的profile
对个性化过滤系统来说最重要的是用户的参与,为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户兴趣模型。
产生用户的profile有很多种方法,主要分为两种:
(1)用户主动描述提供自己兴趣,但这种方法有很多弊端。
(2)Agent跟踪检测用户的浏览活动,自动的产生用户的profile,也就是说,检测用户的浏览活动,收集用户Web习惯信息,分析、组织这些信息以提取用户的偏好。
在定制好一个用户profile之后,系统要自适应修改用户信息,必须根据学习的信息分析当前用户的行为,从而调整用户兴趣的权重。用户反馈的方法分为两种:显示反馈和隐式反馈。显示反馈指系统要求用户对信息进行反馈和评价,从而达到学习的目的。一般情况下这种做法效率不高,因为很少有用户主动向系统表达自己的爱好而且还打扰用户。隐式反馈不要求用户提供什么信息,都是由系统自动完成的。用户的行为可以表现为查询浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等。一些研究表明,简单的动作如点击鼠标不能有效的揭示用户的兴趣,而浏览页面和拖动滚动条所花的时间可以有效的揭示用户的兴趣。文献表明,用户查询、访问页面、标记书签能有效揭示用户的兴趣。
2.2 从隐式反馈中学习用户的profile
形式上,一个文档表示为关键词矢量Xi: , 表示第 个关键词在文档中出现的频率,d是文档中关键词的总数。
用户的profile是由很多兴趣领域主题(topics)组成,主题代表用户的信息需求,本文假定用户的profile只是由单一的主题组成,形式上,用户profile表示为一个权矢量 : 。
是第 个关键词在profile中的权值, ,d是用于描述profile关键词的数量。系统提出一个询问给一个搜索引擎,检索Agent从搜索引擎上选取N个URL进行排序,文档的排序是基于与profile的相关性,其相关性计算方法为:
文档按照 的值降序排列,其中M个文档传送给用户。既然关键词矢量是标准化的 ,,那么相关值等价于cosine相关性计算如:
其中:
本文中在过滤文档中考虑用户几个动作:阅读时间( )、加入标签( )、拖动滚动条( )和跟随超链接( )。隐式反馈计算为: 。
其中 , 是分配给每一个 动作的权值。 是一个二值函数,当观察到用户对web文档i有动作 是值为1否则为0,所得值 用于用户兴趣模型的更新。修改用户profile主要是插入关键词、移动已经存在的关键词和修改关键词的权重。在对文档 的反馈信息 的基础上,可以更新用户的个性化profile,学习规则
其中 是用于检索第i个文档的关键词的权值, 按此学习规则,根据用户对检索到的第i篇文档的反馈信息,对用户个性化文件Profile中的每个特征词条的权值进行修改。修改原则为:如果检索文档中的某个特征词条的权重很高,超过给定的最高阈值,则相应的Profile中的对应的词条的权重就会增加;如果检索文档中的某个特征词条的权重一般在给定的阈值范围之间,说明此词条权重与用户特征文件中对应词条的权重基本一致,则相应的Profile中的对应的词条的权重不做修改;如果检索文档中的某个特征词条的权重很低,低于给定的最低阈值,则相应的Profile中的对应的词条的权重就会减少。用户profile更新方法为: 。
整个过程流程
第一步:用户提供系统一个初始profile;
第二步:Agent根据profile建立一个询问,用现有的一个搜索引擎得到N个相关的URLs;
第三步:通过URLs检索到的文档进行预处理,估计文档的相关值,对这N个文档进行排序,从中过滤得到M个文档传送给用户
第四步:Agent通过观察用户的动作行为得到反馈。(用户浏览过滤得到的HTML文档的动作如滚动鼠标、书签和跟随文档的超链接,系统通过这些动作推断用户对每个文档感兴趣度。)
第五步:用反馈信息更新用户profile。
3 结束语
本文对Agent技术在个性化方面的优点进行了阐述,说明了基于隐式反馈的个性化信息过滤过滤的可行性、优势及其涉及到的关键技术为实现个性化的信息过滤奠定了一定的基础。由于用户兴趣是多方面的、动态变化的,跟踪、学习和表达用户兴趣是一个最基本和难以解决的问题也是进一步研究的方向。
参考文献
1 徐俊萍,翟玉庆.基于Agent的个性化信息服务技术的研究[J],计算机工程与科学,.24,No.3:74-76
2 Claypool, Le M, Waseda P,et al. Implicit Interest Indicators. Proceedings of the ACM Intelligent User Interfaces Conference[A]. ACM Press[C], 2001:14-17
3 Lieberman, Letizia H. An Agent that Assists Web Browsing[A]. Proceedings of the International Joint Conference on Artificial Intelligence. AAAI Press[C], 1995:924-929