面向Web的数据挖掘技术
发布时间:2015-07-04 20:33
[摘要] 随着internet的发展,web数据挖掘有着越来越广泛的应用,web数据挖掘是数据挖掘技术在web信息集合上的应用。本文阐述了web数据挖掘的定义、特点和分类,并对web数据挖掘中使用的技术及应用前景进行了探讨。
[关键词] 数据挖掘web挖掘路径分析电子商务
一、引言
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。
web目前已成为信息发布、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。面向web的数据挖掘就是利用数据挖掘技术从web文档及web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。
二、概述
1.数据挖掘的基本概念
数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有: 关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、internet 信息库以及新兴的数据仓库等。
数据挖掘
web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。由于web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为web挖掘所要解决的一个难点,也使得用于web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的web挖掘技术以及对web文档进行预处理以得到关于文档的特征表示,便成为web挖掘的重点。
三、web数据挖掘分类
web 数据有三种类型, 它们分别是: html 标记的web 文档数据、web 文档内的廉洁的结构数据和用户访问数据, 相应地,web 数据挖掘可分为三类: 内容挖掘(web content mining) 、结构挖掘(web structure mining) 和用户访问模式挖掘(web usage mining)。如下图所示。
内容挖掘
web内容挖掘是从文档内容或其描述中抽取有用信息的过程,web内容挖掘按实现方法分为两大类:信息检索(ir)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。
ir方法主要处理非结构数据和web中由html标记的半结构化数据。前者一般采用词集方法,用一组组词条来表示无结构的文本。后者主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。
结构挖掘
web结构挖掘是从web组织结构和链接关系中推导知识。挖掘页面的结构和web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。web结构挖掘可以分为web文档内部结构挖掘和文档问的超链接结构挖掘。
web结构挖掘的基本思想是将web 看作一个有向图,他的顶点是web页面,页面间的超链就是图的边。然后利用图论对web 的拓扑结构进行分析。常见的算法有hits (hypertext induced topic search), pagerank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。web 结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。hits和pagerank分别是查询相关算法和查询独立算法的代表。
访问挖掘
web访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。
web访问挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析web日志来理解用户的访问模式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的web站点。web的log数据包括:senrer log,proxy serverlog,client端的cookie log等。web使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据清洗和事物识别两个部分):模式识别阶段(采用统计法、机器学习等成熟技术.从web使用记录中挖掘知识):模式分析阶段(采用合适的成熟的技术和工具进行模式的分析,从而辅助分析人员理解.使采用各种工具挖掘出的模式得到很好利用)。对web使用记录挖掘采用的算法有:路径分析、关联规则和有字模式的发现、聚类分类等,为了提高精度,使用记录挖掘也用到站点结构和页面内容等信息。
四、web数据挖掘中的关键技术
web数据挖掘中常用的技术有web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。
1.路径分析技术
用路径分析技术进行web数据挖掘时,最常用的是图,因为web可以用一个有向图来表示,g=(v,e),v是页面的集合,e是页面之间的超连接集合,页面定义为图中的顶点,而页面之间的超连接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。
2.关联规则挖掘技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(session),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(riference)关系.最常用的是用aprior算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。
3.序列模式挖掘技术
序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式.它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。
4.聚类分类技术
分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式得出访问某一服务器文件的用。特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。最后进行模式分析,挖掘出人们可理解的知识的模式解释。
五、web数据挖掘的应用
随着中国经济的高速发展,数据挖掘将在中国形成一个产业,目前web数据挖掘已广泛地应用于金融业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,基于web的数据挖掘技术已经成为一个热点,下面主要介绍web数据挖掘的三个应用前景。
1.在电子商务中的应用
在电子商务中,运用web挖掘技术从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,对此进行分析加工,通过对客户进行分类和聚类,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。了解系统的访问模式以及用户的行为模式,从而做出预测性分析。同时有效地对这些web日志进行定量分析,提示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,从而为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
2.在搜索引擎中的应用
利用web数据挖掘技术,通过对网页内容的挖掘,可实现对网页的聚类和分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果;通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效率。
3.在网站设计中的应用
在网站建设中,使用web挖掘通过对网站内容的挖掘,可有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;分析用户的web访问行为,可为用户提供智能化、个性化服务。比如,可根据客户的访问兴趣、访问频度、访问时间,动态地调整页面结构,迎合每个客户的浏览兴趣,使客户在浏览时感觉自己是网站的惟一客户;另外,网站还可以根据实际用户的浏览情况,挖掘用户的兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。
六、结束语
本文就web数据挖掘技术及应用进行了分析,web挖掘的应用研究是当前数据挖掘的研究热点。随着电子商务的迅速普及,网络资源的广泛利用,如何进一步开发web数据挖掘,使用web挖掘技术进行更深层次的应用是目前研究的重点。
[关键词] 数据挖掘web挖掘路径分析电子商务
一、引言
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。
web目前已成为信息发布、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。面向web的数据挖掘就是利用数据挖掘技术从web文档及web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。
二、概述
1.数据挖掘的基本概念
数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有: 关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、internet 信息库以及新兴的数据仓库等。
数据挖掘
web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。由于web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为web挖掘所要解决的一个难点,也使得用于web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的web挖掘技术以及对web文档进行预处理以得到关于文档的特征表示,便成为web挖掘的重点。
三、web数据挖掘分类
web 数据有三种类型, 它们分别是: html 标记的web 文档数据、web 文档内的廉洁的结构数据和用户访问数据, 相应地,web 数据挖掘可分为三类: 内容挖掘(web content mining) 、结构挖掘(web structure mining) 和用户访问模式挖掘(web usage mining)。如下图所示。
内容挖掘
web内容挖掘是从文档内容或其描述中抽取有用信息的过程,web内容挖掘按实现方法分为两大类:信息检索(ir)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。
ir方法主要处理非结构数据和web中由html标记的半结构化数据。前者一般采用词集方法,用一组组词条来表示无结构的文本。后者主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。
结构挖掘
web结构挖掘是从web组织结构和链接关系中推导知识。挖掘页面的结构和web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。web结构挖掘可以分为web文档内部结构挖掘和文档问的超链接结构挖掘。
web结构挖掘的基本思想是将web 看作一个有向图,他的顶点是web页面,页面间的超链就是图的边。然后利用图论对web 的拓扑结构进行分析。常见的算法有hits (hypertext induced topic search), pagerank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。web 结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。hits和pagerank分别是查询相关算法和查询独立算法的代表。
访问挖掘
web访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。
web访问挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析web日志来理解用户的访问模式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的web站点。web的log数据包括:senrer log,proxy serverlog,client端的cookie log等。web使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据清洗和事物识别两个部分):模式识别阶段(采用统计法、机器学习等成熟技术.从web使用记录中挖掘知识):模式分析阶段(采用合适的成熟的技术和工具进行模式的分析,从而辅助分析人员理解.使采用各种工具挖掘出的模式得到很好利用)。对web使用记录挖掘采用的算法有:路径分析、关联规则和有字模式的发现、聚类分类等,为了提高精度,使用记录挖掘也用到站点结构和页面内容等信息。
四、web数据挖掘中的关键技术
web数据挖掘中常用的技术有web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。
1.路径分析技术
用路径分析技术进行web数据挖掘时,最常用的是图,因为web可以用一个有向图来表示,g=(v,e),v是页面的集合,e是页面之间的超连接集合,页面定义为图中的顶点,而页面之间的超连接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。
2.关联规则挖掘技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(session),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(riference)关系.最常用的是用aprior算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。
3.序列模式挖掘技术
序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式.它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。
4.聚类分类技术
分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式得出访问某一服务器文件的用。特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。最后进行模式分析,挖掘出人们可理解的知识的模式解释。
五、web数据挖掘的应用
随着中国经济的高速发展,数据挖掘将在中国形成一个产业,目前web数据挖掘已广泛地应用于金融业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,基于web的数据挖掘技术已经成为一个热点,下面主要介绍web数据挖掘的三个应用前景。
1.在电子商务中的应用
在电子商务中,运用web挖掘技术从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,对此进行分析加工,通过对客户进行分类和聚类,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。了解系统的访问模式以及用户的行为模式,从而做出预测性分析。同时有效地对这些web日志进行定量分析,提示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,从而为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
2.在搜索引擎中的应用
利用web数据挖掘技术,通过对网页内容的挖掘,可实现对网页的聚类和分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果;通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效率。
3.在网站设计中的应用
在网站建设中,使用web挖掘通过对网站内容的挖掘,可有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;分析用户的web访问行为,可为用户提供智能化、个性化服务。比如,可根据客户的访问兴趣、访问频度、访问时间,动态地调整页面结构,迎合每个客户的浏览兴趣,使客户在浏览时感觉自己是网站的惟一客户;另外,网站还可以根据实际用户的浏览情况,挖掘用户的兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。
六、结束语
本文就web数据挖掘技术及应用进行了分析,web挖掘的应用研究是当前数据挖掘的研究热点。随着电子商务的迅速普及,网络资源的广泛利用,如何进一步开发web数据挖掘,使用web挖掘技术进行更深层次的应用是目前研究的重点。