WEB挖掘在电子商务系统中的应用
随着电子商务的发展,企业的数据越来越多,而当其数据积累到一定程度时,必然会反映出一定规律性的东西,也就是说,企业的海量、分布、动态、复杂、非结构化的数据中蕴含有可以为其利用的规律。因此,人们迫切希望使用一种技术,从中挖掘出具有价值的规律来,形成对企业的技术和经营的指导。数据挖掘技术是可以用来挖掘这些规律的一种有效工具。
web中包含的丰富和动态的超链接信息,以及web页面的访问和使用信息,为数据挖掘提供了丰富的资源。如何对web中的数据进行有效的资源和知识发现,是web挖掘需要解决的问题。
一、web信息数据的特征
传统数据挖掘的信息局限于数据库中的结构化数据,而web信息数据是半结构化或非结构化的,具有如下特征: 一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。web及其数据的更新、增长速度极快, web上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有涉及各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户ip地址等这些潜在的访问信息。
二、数据挖掘及web挖掘技术
1.数据挖掘
数据挖掘,又称数据库中的知识发现,近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上,从大量的、模糊的、随机的数据中提取出数据间重要的但容易被人工分析忽略的知识和信息。数据挖掘技术涉及数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现(kdd)是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。模式可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。
挖掘
web挖掘是对数据挖掘的一种新的发展和应用,但不同于传统的数据挖掘,其主要区别在于传统的数据挖掘的对象局限于数据库中的结构化数据,并利用关系表等存储结构来挖掘知识,而web挖掘的对象是半结构化或非结构化特征。
web挖掘就是从大量的web文档和web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。它以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、自然语言理解等多个领域的技术,并将传统的数据挖掘技术与web结合起来。web挖掘分为:web内容挖掘、web结构挖掘和web使用记录挖掘,如下图所示。
图 web挖掘的分类
三、基于web日志挖掘的算法
web日志记录了用户访问的信息,包括用户的访问方式、访问时间、访问人数、用户ip地址、被请求文件的url http版本号、传输字节数、引用页的url等。
1.符号与定义
web日志文件是由一条记录组成的,一条记录实际上记录的是用户对web页面的一次访问。
定义1关联规则:设i是web日志的一条记录,即i={i1,i2,…,im},其中ij(1≤j≤m)是某用户访问一种商品的数据,每次访问一种商品都包含有如商品编号、访问时间、访问次数、客户号、客户ip地址等数据,称此类数据为数据项。ti∈i为i的一个子集。d={t1,t2,…,tn}是关于ti的集合,且x∈i,y∈i,x∩y =ф,则记录x=>y为在集合d中x与y相互关联的规则。
定义2支持度:如果x=>y在t中的s%成立,则称x=>y的支持度为s%,即
s% =(|{t|t中含有x,y}|/|t|)·100%
支持度s%表示x=>y中出现的普遍程度。
定义3置信度c%
c%=(|{t|t中含有x,y}|/|{t|t中含有x}|)·100%
置信度表征的是规则的强度。
定义4频繁模式:大于给定的支持度的模式x=>y称为频繁模式,并将它看成是t中一条有意义的关联规则。
2.算法描述
根据fp-增长或频繁模式增长(frequent-pattern growth)算法,将关联规则的挖掘分为两个步骤实施:根据所提供的最小支持度和最小置信度找出所有的频繁项集;利用所产生的频繁项集,产生合理的关联规则。
(1)fp-增长算法的具体算法描述如下:
输入事务数据库d,最小支持度阈值min_sup
输出d中的所有频繁项集
方法1按以下步骤扫描构造fp-树:
①扫描事务数据库d一次。收集频繁项的集合f和其支持度。对f按支持度降序排序,结果为频繁项表l。
②创建fp-树的根节点,以“null”标记。对d中每个trans,执行:
选择trans中的频繁项,按l中的次序排序。设排序后的频繁项表为[p│p],其中p是第一个元素,p是剩余的元素表。调用insert_tree([p│p] ,t)。即:如果t有子女n使得-name = -name,则n的记数增加1,否则创建一个新节点n,并将其计数设置为1,链接到它的父节点t,并通过节点链接结构将其链接到具有相同item–name的节点。如果p非空,递归调用insert_tree(p,n)。
方法2procedure ft_growth(tree,α)
if tree含单个路径p then
for p中节点的每个组合(记作β)产生模式β∪α,其支持度support=β中节点最小支持度;
else for each αi在tree的头部{
产生一个模式β=αi∪α,其支持度support =αi·support;
构造β的条件模式基,然后构造β的条件fp-树treeβ;
if treeβ≠φthen
调用fp_growth(treeβ,β);}
(2)产生频繁项集。本文主要介绍如何产生所有频繁项集。假设有一个两维的web日志数据文件。一维是商品号,共有三种商品,分别标志为t1,t2,t3;另一维包括商品的访问次数,为简化处理,分别标志为interview1,interview2,interview3,interview4,interview5。另假设min_sup=0.3,minconf =0.5,表1给出了两维的事务数据库,表2给出的是一维频繁项集,表3给出的是二维频繁项集。
四、结束语
本文提出了一种基于日志的web数据挖掘方法,对电子商务系统具有较强的现实指导意义。web日志挖掘所得到的结果既有利于提高网站的性能和安全性,也可以作为优化站点拓扑结构和页面之间的超链接关系的依据,也是在web上进行市场开发和开展电子商务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化web站点的依据。
上一篇:电子商务中WEB挖掘技术的运用
下一篇:WEB挖掘与电子商务的联系