基于粗糙集的关联规则挖掘在餐饮信息化中的应
发布时间:2015-07-13 09:47
摘 要 关联规则挖掘是数据挖掘中的一个重要问题,在最近几年被广泛研究。本文将粗糙集理论及方法引入顾客消费水平评价中,通过属性约简降低属性纬数,然后基于粗糙集理论进行关联规则挖掘,得出了一些有益的结论,为拓展粗糙集的应用领域做出了有益的探索。
关键词 粗糙集;关联规则;餐饮信息化;区分矩阵;属性约简
1 引言
粗糙集理论(Rough Set)是由波兰数学家 在80年代初提出的一种处理模糊和不精确性问题的新型数学工具。利用粗糙集理论进行数据挖掘,重要的一点就是基于粗糙集理论的属性约简。通过约简操作降低属性的纬数,总结出适用于决策支持的知识规则,是粗糙集理论最重要的应用之一。
关联规则挖掘是数据挖掘中的一个重要问题,随着全球范围内数据库中存储的数据量迅速增大,数据间的关联规则往往过于庞大而难以分析,如何有效的得到有意义的关联规则成为研究热点。本文以酒店行业为应用背景,将基于粗糙集理论的数据挖掘技术应用于餐饮部门顾客消费记录,通过属性约简方法,将餐饮信息数据库中杂乱、无序的原始数据,化简为对企业有用的信息,为企业的决策提供新的解决方法。
2 基本概念
2.1 粗糙集理论的基本概念
粗糙集理论将分类与知识联系在一起,认为知识源于有认知能力的主体的分类能力,并用等价关系形式化表示分类。
定义1 粗糙集理论中定义信息系统为一个如下四元组:S = (U,A,V,F),其中U = (x1,x2,…,xn) 是对象集,即论域;A 是属性集合,A = C∪D,且C∩D = Φ,其中C为条件属性,D为决策属性;V 为属性A的值域;F 是U ×A → V 的映射,它为U 中各对象的属性指定唯一值。S又被称为决策表。
定义2 在信息系统S 中,对于一属性集I ∈A,可构造对应的二元等价关系。IND (I) { x,y ∈ U ×U | νa∈ I,有a(x) = a(y) },称IND (I) 为由I 构造的不可分辨关系。不可分辨关系实际上就是I上的等价关系。因此,针对属性集I上的不可分辨关系,U可划分为几个等价类,用U/IND(I)表示。
定义3 约简定义为不含多余属性并保证分类正确的最小条件属性集。假设条件属性集C的简约是C的一个非空子集C’,C和C’必须满足以下两个性质:
(1) ind(C,D) =ind(C′,D),不存在C″ C′有ind(C″,D) =ind(C′,D) 。
(2) 一个决策表可能同时存在几个约简,C 的简约的集合记作Red(C) 。
这些约简的交集定义为决策表的核(Core),Core (C) =∩Red(C) 核中的属性是影响分类的重要属性。
定义4 信息系统S中关于属性集C的区分矩阵M(C)=(mij)n×n定义为
M(C)=(mij)n×n是代表了区分xi,xj的完整信息。
2.2 关联规则
关联规则是在交易数据、关系数据或其他信息载体中查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构,通过分析数据或记录间的关系,决定哪些事情将一起发生。
定义6 设I = {i1,i2,…,in} 是项的集合。包含K个项的项集称作K项集。设D是数据库记录的集合,其中每个事务T是项的集合,且T I。设X是一个项集,事务T包含X当且仅当X T。
关联规则是形如 的蕴涵式,这里,且X∩Y=Φ。X称为规则的左部或规则的前提(简记LHS),Y称为规则的右部或结论(简记RHS)。
度量规则的参数是支持度(Support)与置信度(Confidence)。支持度是指数据集中的实例同时包含条件属性与决策属性的共同概率,支持度揭示了规则的重要性。置信度表示实例在包含条件属性的前提下,也包含决策属性的条件概率,它揭示了规则的可信度。在粗糙集理论中支持度与置信度可以表示为:
其中P(X)表示是指X在数据D中出现的概率,其余雷同。Support()指X、Y在D中同时出现的概率;Confidence()表示在X出现的前提下Y出现的条件概率。如果得到的规则同时满足支持度部小于支持度阈值和置信度不小于置信度阈值,则该规则有意义。
3 基于粗糙集的关联规则挖掘模型
将基于粗糙集的关联规则挖掘的算法应用于酒店顾客消费数据库,整个挖掘过程分为三步:即数据预处理,属性约简,关联规则的挖掘,见图1。
(1) 数据预处理:通过对餐饮部门的初始数据进行清洗,缺失值处理,转换及数据选择,获取初始信息表,且初始表转换为粗糙集形式,并明确条件属性集和决策属性;
(2) 属性约简:对条件属性进行约简,删除多余属性,用分辨矩阵来完成约简和求核,在此基础上生成约简属性集,合并相同行,进行属性约简;
(3) 关联规则挖掘:输入支持度阈值和置信度阈值,根据数据约简结果,利用粗糙集理论文献中的算法,进行关联规则的挖掘。
4 数据挖掘在餐饮信息化中的应用
在全面信息化的21 世纪,我国酒店业面临加入WTO 带来的难得机遇与严峻挑战。酒店企业要在这一全新的竞争环境中生存与发展壮大,信息技术的作用举足轻重。而数据挖掘是企业信息化的灵魂所在,利用它能提升企业信息服务的层次,实现企业信息共享,进而为决策者提供依据。
4.1 典型应用
酒店是一种提供特殊服务的企业,它出售的商品可以概括为“空间” 、“时间”和“服务”。其中,最重要的经营产品就是客房和餐饮,餐饮信息化是酒店信息化的重要组成部分。数据挖掘技术在餐饮部门中的典型应用包括交叉销售和个性化营销等。
(1)交叉销售。利用数据挖掘技术从数据库所存储的客户信息,尤其是以前消费行为的信息中,寻找影响客户消费行为的关键因素,并建立预测模型对客户将来的消费行为进行预测分析,分析哪些客户最有可能对企业的产品感兴趣、会对哪些相关产品感兴趣、客户购买某些产品的可能性有多大等,以决定对哪些客户进行交叉销售,并向这些客户提供适合其需求的产品。
数据挖掘中的关联分析经常被用来帮助企业发现一些隐含的、微妙的且极具商业价值的关系。这种挖掘过程一般分为两步:首先,发现所有的频繁项集,这些项集的频度要大于等于最小支持度,从而找出所有可能被一起购买的关联产品;其次,根据所获得的频繁项集产生相应的强关联规则,这些规则必须满足最小置信度阈值,从而找出一起购买可能性足够大的关联产品。
(2)个性化的市场营销
近年来,餐饮营销成为现代餐饮管理的重中之重。餐饮营销就是以市场为起点,以顾客需求为焦点,寻求
数据挖掘的聚类分析技术、粗糙集理论等可以对数据库中收集、加工和存储的大量客户信息进行分析和处理,根据客户的消费心理、消费习惯、偏好程度、消费频率、收入水平等因素把大量的客户进行分类,酒店企业可以根据不同客户群的特征,提供差异化营销策略。下面本文就以人均消费水平评价为例,说明基于粗糙集的关联规则挖掘的实施过程。
4.2 基于粗糙集的关联规则挖掘在餐饮信息化中的应用
根据上述构建的数据挖掘模型,利用启发式属性约简算法对餐饮数据进行约简,先进行数据预处理,再求出约简或近似约简,并在此基础上根据值约简等减少属性和个体数目,最终提取规则应用于新对象的分类。
1)获取初始信息表
通过数据提取和离散化,获取如表1的数据,表1是某大型酒楼餐饮部门有关高档型,较高档,中档,低档型四种人均消费类型的部分调查记录。该表中论域U={1,2,…,19},条件属性C={A1,A2,A3,A4,A5},决策属性D={D1}。其中,A1:班次,A2:餐厅地点,A3:客人数,A4:总金额,A5:付款方式,用D1表示决策属性人均消费水平档次。
表1 某酒楼餐饮部门消费者的部分记录
A1班次值1、2、3分别表示早餐、午餐和晚餐;A2餐厅地点表示为10:美食广场,11:零点餐厅,12:包厢,15:西餐厅;把初始数据按照实际需要进行离散化处理和分类,将A3客人数分为四类,0:少,1:中,2:较多,3:多;A4总金额分为五个等级,0:低,1:较低,2:中,3:较高,4:高;A5付款方式表示为1:RMB人民币现金,2:TOA转前台帐户,3:TOR转AR帐。
决策属性A6人均消费分为0:低,1:中,2:较高,3:高四个等级。
2)属性约简
容易看出,该表是相容决策表。首先利用区分矩阵求出核,核为Core ={A4,A5},然后计算其它属性的重要性分别为A1:0.25、A2:0. 7、A3:0.35,将属性重要性最大的A2加入,得到约集R={A2,A4,A5},则表1通过属性约简后的决策表如表2所示:
表2 属性约简后的决策表
3)关联规则挖掘
根据上面得到的约集,用属性A2、A4、A5之间的隐含关系来挖掘关联规则,设支持度阈值30%,置信度阈值80%,可得到同时满足支持度阈值和置信度阈值的项目集生成的关联规则有:
rule 1. (A4 = 0) & (A5 = 2) = (D1 = 0) ;
rule 2. (A4 = 2) = (D1 = 1);
rule 3. (A4 = 3) = (D1 = 2);
rule 4. (A2 = 12) & (A4 = 4) & (A5 = 1) = (D1 = 2);
rule 5. (A4 = 4) & (A5 = 3) = (D1 = 3);
rule 6. (A4 = 1) & (A5 = 2) = (D1 = 2).
将A2,A4,A5的含义带入,则得到完整的决策规则,如:
(总金额小于75元) and (付款方式为转前台帐户) → (人均消费小于10元);
(325=总金额800) → (10=人均消费70);
(800=总金额1600) → (70=人均消费150);
(餐厅地点在包厢) and (1600=总金额20000) → (70 =人均消费150);
(1600=总金额20000) and (付款方式为转AR帐) → (150=人均消费1500);
(总金额75)→ (人均消费10)。
由以上规则可以得出:
总金额消费低时,人均消费低;当就餐地点在包厢,且消费额度较高时,人均消费水平为较高档次;而当总金额消费高,且其付款方式为转AR帐户时,其人均消费水平高,也就是说当消费者为单位消费时,其消费水平档次高。
5 结束语
粗糙集以其独特的优势正得到越来越多研究者的关注,由于许多成功的应用,使得它的声望越来越高。
属性约简是粗糙集理论的核心内容,本文采用基于粗糙集理论的关联规则挖掘算法,使用粗糙集理论对数据进行预处理,然后再进行关联规则挖掘,提高了关联规则挖掘的效率;将粗糙集理论中属性约简的概念应用到关联规则挖掘中,对规则进行属性限制,得到实际可用的关联规则集,从而有助该餐饮部门了解和熟悉顾客的消费动向,及时地根据消费资料分析潜在目标市场,预测消费趋势,评估消费倾向,对餐饮业具有一定的指导意义。
参考文献
[1] WANG Jue,MIAO Duoqian. Analysision Attribute Reduction Strategies of Rough Set [J]. Journal of Computer science & Technology,1998,13 (2):189-193
王国胤.Rough 集理论与知识获取[M].西安:西安交通大学出版社,2001
Han Jiawei,Kamber Mining Concepts and Techniques[M]. Morgan Kaufmann Publishers,2001
白秀玲,崔林,王向阳.一种基于关联规则挖掘的粗糙集约简算法[J].计算机工程与应用,2003;39(10) :185~186
童舟,罗可.基于Rough Set 带结论域的关联规则挖掘[J].计算机工程与应用,2006;25(4):166~169
王旭仁,许榕生.基于粗糙集理论的关联规则挖掘研究及应用[J].计算机工程,2005;31(20):90~92