基于数据挖掘对X移动公司数据业务匹配模型的研
摘 要:电信行业竞争激烈,而营销环境的变化使得业务的发展面临的重重的挑战,文章将结合电信行业的实际,打破以往单一模型分析数据业务的方式,通过结合数据挖掘的方法构建多个模型对数据业务进行分析,得出客户业务的推荐指数,完善X移动公司的服务模式。
关键词:匹配模型 类型偏好模型 关联分析 因子分析
随着移动电话市场普及率的提高,电信市场的竞争日趋白热化,电信业务如彩铃、无线音乐俱乐部、飞信、手机邮箱、手机证劵、天气预报、手机报、手机视频、手机游戏、号码管家、来电提醒等的营销也面临着诸多挑战:一是市场竞争日益强烈。电信重组为移动公司带来更多机会与挑战,如何利用有限的营销资源尽可能的占领、扩大、巩固市场成为关键。二是管理制度日益规范。移动集团为规范经营服务行为,充分保障广大客户权益,在全公司实施中国移动客户服务“五条禁令”,严格营销活动的开展尺度,增加了各省公司的营销难度。三是产业转型带动营销模式转变。新业务种类繁多,根据产品特性寻找目标客户的传统营销模式越来越无法适应“以客户为中心”的个性化营销需求;挖掘客户潜在需要,提供定制化的产品服务包的营销模式成为必须。四是消费者维权意识增强。随着社会的发展,消费者对个人隐私和人权意识逐步增强,简单粗暴地主动营销方式不仅会对客户造成打扰,甚至会引发客户逆反心理,对企业造成负面的影响。为了应对挑战,本文讲打破以往用单一模型分析模式,使用Clementine 11.1数据挖掘工具,并结合数据挖掘的方法构建数据关联模型、类型偏好模型和匹配模型,得出客户业务的推荐指数,完善移动公司的服务模式。
一、理论介绍
1.数据挖掘
数据挖掘,就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。[1]
2.关联分析
(1)关联分析的定义
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系。
(2) 关联规则挖掘的过程
首先,连接数据,进行数据准备;其次给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;最后,可视化显示,理解和评估关联规则。
(3)Apriori算法[2]
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
3.因子分析
因子分析是根据其相关程度将多个实测变量转换成相互之间互不关联或关联性很低的综合指标的统计方法。它主要是解释在总变动中各因素的影响程度和计算在总变动中各因素变动所占的份额(即贡献率)。
二、模型的构建
1.建模准备
数据库中有些入网的客户中不乏有一年反复入网两次或两次以上的用户(即跳蚤用户),还有许多为了完成既定或阶段性的销售目标的用户(即自养增收用户),还有一些客户为了提高渠道评级,获取更高级别的星级评定及相应补贴(渠道养卡用户)等,这些用户都属于无效业务用户。所以,在数据库选取数据时应将这些用户进行剔除。
根据X移动的内部资料,通过分析客户的特点,根据用户交往圈、通话行为模式、终端IMEI等判定从入网的客户。此外对于渠道养卡的用户,可以根据客户使用的产品、ARPU、主叫时长、用户状态、消费情况等进行判断,一般若客户使用无月租的产品、在网时长不超过3个月、ARPU不低于5月等疑似养卡的号码,提取数据时应将其剔除。其中数据来源于X移动公司的数据库。
2.建模分析
(1)数据业务的关联模型
数据业务的关联模型主要是使用了Apriori作为关联模型的基本算法,挖掘数据业务之间的关联关系。
① 模型的具体步骤如下:
第一,从X移动公司数据库导出相关的数据,并对数据进行缺失值处理、数据的标准化等处理。
第二,设置建模参数,本文中的支持度是指订购前项业务的用户在所有用户中的比例;置信度是指订购了前项所示业务的情况下,订购后项业务的概率。本文设置支持度阈值为0.06%,置信度阈值为1%。
第三,运行后得到部分结果如表1所示:
表1 关联规则示例表
关联规则示例 | |||
后项 | 前项 | 支持度 | 置信度 |
Music_club_mark=1 | Cailing_mark=1 and mms_mark = 1 and mont_sms_mark=1 | 0.33% | 38.43% |
从表1的分析结果我们可以看出,在样本用户中有0.33%的用户同时是彩铃、彩信、梦网短信和无线音乐俱乐部的活跃用户;在同时是彩铃、彩信、梦网短信活跃用户中,38.43%的用户同时是无线音乐俱乐部的活跃用户;即规则(彩铃+彩信+梦网短信)活跃用户和无线音乐俱乐部活跃用户的置信度为38.43%。
第四,模型进行验证
将5、6月新增用户与模型预测的目标客户进行比对,得到模型的查全率、提升度等指标,以评价新业务模型的效果。其中,候选用户是指4月某项制定新业务的未定购用户;筛选用户是根据模型预测为某项指定新业务的营销目标用户;新增活跃用户是指候选用户在5、6两个月新增为某项指定新业务活跃用户;查全率为筛选用户中新增活跃用户数/候选用户中的活跃用户数;提升度为查全率/筛选用户比例。查全率和提升度呈反比的关系,即查全率越高,提升度就越低。
通过计算各业务的查全率和提升度可知,模型总体效果较好,对业务进行汇总,模型筛选了22.5%的候选用户(按人次计算),查全率为62.6%,提升倍数为2.8倍。并且模型对于彩铃、飞信等成熟型业务预测效果很好,查全率较高,提升效果明显。但是手机视频、手机游戏等导入期业务由于活跃用户少,关联关系未体现出来,模型查全率较低。
② 结论
综上,关联规则模型适用于已经发展成熟,客户群已经体现明显特征的业务之间关联关系的预测,查全率较高,提升效果明显。但是不适用于导入期业务。导入期用户量很少,与其他业务的关联特征不明显;并且用户主要由于初期营销活动刺激等原因,可能并非为真正需要或者感兴趣的用户。因此我们引入了数据业务类型偏好模型。
⑵数据业务的类型偏好模型
数据业务类型偏好模型是根据用户某业务使用情况评估用户对某业务的偏好程度,采用100分制进行评 分。
①类型偏好计算过程:
第一,业务类型划分。根据业务属性和所满足的用户需求对业务进行分类,并鉴别业务之间的关系,区分互补或替代型业务。
第二,业务分等评分。根据业务订购/非订购,活跃/非活跃情况分别赋予不同评分,并对于可以衡量业务使用程度的,根据客户使用程度的分布划分档次,评定不同的分数。
第三,类型评分汇总。同一业务不同指标之间赋予不同权重,得出单一业务的评分,不同业务之间采取逐级衰减的方式评分,同一类型各个业务评分汇总得到用户类型偏好积分。
其中: i-- 数据业务类型序号;j -- 某类型下的业务序号;Hi-- 类型偏好得分;Wj--第j个业务的衰减系数;h(I,j) -- 业务偏好得分,表示第i个类型的第j项业务偏好得分。以彩铃为例,如下表2所示
表2 彩铃评分表
业务类型 | 业务名称 | 数据分档 | 人数占比 | 指标评分 | 评分调整 |
音乐 | 全曲下载次数 | 0 | 0.9965 | 0 | 0 |
1 | 0.0017 | 60 | 80 | ||
2 | 0.0006 | 70 | 85 | ||
(2,5] | 0.0005 | 80 | 90 | ||
(6,15] | 0.0004 | 90 | 95 | ||
>15 | 0.0003 | 100 | 100 | ||
彩铃订购 | 未订购 | 0.5925 | 0 | 0 | |
订购 | 0.4075 | 60 | 80 | ||
铃音盒订购 | 未订购 | 0.9911 | 0 | 0 | |
订购 | 0.0089 | 60 | 60 | ||
彩铃下载次数 | 0 | 0.9911 | 0 | 0 | |
1 | 0.0067 | 60 | 80 | ||
2 | 0.0013 | 70 | 85 | ||
3 | 0.0004 | 80 | 90 | ||
>3 | 0.0002 | 100 | 100 |
第五,对模型进行验证,将5、6月新增用户与模型预测的目标客户进行比对,得到模型的查全率、提升度等指标,以评价新业务模型的效果。通过分析可知,模型总体效果不如关联模型,对业务进行汇总,模型筛选了40.2%的候选用户(按人次计算),查全率为65.2%,提升倍数为1.6倍。模型保持了较高的查全率,尤其是对于手机视频、手机游戏等导入期业务,查全率提升明显,可以对关联模型进行有效的修正。模型的整体提升度不高,基本上低于关联规则模型。
整体而言,类型偏好模型整体效果不如关联模型,但对于部分导入期业务提升效果明显。
②结论
类型偏好模型挖掘了业务之间的逻辑关系,实现了定量和定性分析的结合,对于导入期业务预测效果好于关联规则模型。但是对于成熟型业务,类型偏好模型的结果不够精确,模型预测的提升度指标不如关联模型。
⑶数据业务的匹配模型
从上文的分析可知,数据业务关联关系和类型偏好模型都是反映了数据业务之间的关联关系,类型偏好模型弥补了关联模型不能反映导入期业务之间的关联关系的不足,因此将两个结合起来构建一个数据业务匹配模型。主要采用因子方法构建数据业务匹配模型。
①数据业务的匹配模型具体步骤如下:
选取相关指标,将关联模型中产生的产品关联的置信度和类型偏好模型产生的类型偏好指数合并之后导入Clementine 11.1文件,对数据进行规范化处理,并对各项业务进行因子分析,运行后,以彩铃为例,因子综合得分等式为:F=0.62531*Zcailing_mark_for+0.37469 * Zcailing_mark_for_1 -0.0114
然后将相关的值带入上面的公式,得到该用户在彩铃这一项的推荐指数,对该用户的各项业务进行评估,最终得到客户的业务的最优推荐指数。
对数据业务匹配模型进行检验:将5、6月新增用户与模型预测的目标客户进行比对,得到模型的查全率、提升度等指标,以评价模型的效果。
表3 匹配模型的查全率和提升度
业务类型 | 筛选用户比例 | 查全率 | 提升度 |
彩铃 | 32.77% | 55.56% | 1.70 |
无线音乐俱乐部 | 26.89% | 68.39% | 2.54 |
飞信 | 23.98% | 55.34% | 2.31 |
手机邮箱 | 32.38% | 77.38% | 2.39 |
手机证券 | 36.35% | 84.62% | 2.33 |
天气预报 | 17.07% | 25.73% | 1.51 |
手机报 | 33.76% | 59.36% | 1.76 |
手机视频 | 30.36% | 70.90% | 2.34 |
手机游戏 | 24.42% | 69.05% | 2.83 |
号簿管家 | 27.82% | 50.42% | 1.81 |
来电提醒 | 1.67% | 2.83% | 1.70 |
从上表3数据可以看出,匹配模型结合了关联模型和类型偏好模型的优点,整体效果有了一定的提升,成熟型和导入期业务大部分预测效果较好。
②结论
数据业务匹配模型综合挖掘业务之间的关系,效果好于单一的关联模型和类型偏好模型,并且比单一的模型具有更好的预测效果,可以采用它对不同业务使用计算推荐指数,并且对推荐指数进行排序,并根据推荐阈值确定推荐用户,并能够分业务输出推荐用户。
三、 总结
第一,模型具有很强的应用性。模型不仅能确定待多项业务的优先级,还能确定某业务是否适合推荐,非常适用于产品的整合营销。由于在不同业务上预测效果良好,同样也适用于分业务筛选营销用户。
第二,客户-产品匹配技术创新。模型依据业务-特征匹配程度,科学评估业务推荐指数,实现客户级别的适配业务推荐,改进了传统对客户进行细分,然后进行细分群体和业务之间匹配的方法匹配较粗糙的缺点 。
第三,模型应用的创新。突破传统通过单个产品找客户的营销模式,形成针对客户需求偏好提供相应产品并在与客户接触时刻触发营销的产品整合营销模式,避免分散式多次营销对客户造成的重复打扰和大量营销资源的浪费。
参考文献:
[1]段云峰 吴唯宁 李剑威 韩 洁: 数据仓库及其在电信领域中的应用,电子工业出版社,2003
[2]陈志泊:数据仓库与数据挖掘,清华大学出版社,2009
[3]于秀林 任雪松:多元统计分析,中国统计出版社,2009
上一篇:关于杜绝虚假新闻的几点思索