欢迎来到学术参考网

基于K-means聚类算法的客户价值分析研究

发布时间:2015-07-04 09:21
摘要 本文重点讨论了聚类分析方法中k-means聚类算法在客户价值分析中的作用,通过对客户的现有价值和潜在价值进行分析,对客户进行细分。在此基础上,企业可结合行业的特征找出各类客户的特点,实行差异化服务策略,让更好的资源和服务提供给最有价值客户,从而达到顾客满意、企业盈利的目的。 关键词 聚类分析 k-means聚类算法 客户价值 1 引言 市场分析理论认为,20%的客户带来约80%的利润,即帕累托所谓“关键的少数与次要的多数”的关于市场分布的一般规律[1]。通常情况下,只有少部分高价值的客户才能够为企业带来大部分利润。进行客户细分后,企业可以为高价值客户提供足够的技术和人力试粗с郑猿浞致闫涠云笠悼突х竦钠谕o喾矗俨糠值图壑档目突в惺焙蛏踔粱岣笠荡锤豪蟆6蠖嗍突г虼τ诟呒壑涤氲图壑抵屑洌瞧笠抵匾目突海ǔ;岫云笠档牟莆褚导ú艽蟮挠跋臁r环矫妫腔岽锤嗟目突х⒄够幔涣硪环矫妫且不嵬贝春芨叩脑擞缦铡6云笠道唇玻呒壑悼突峁┯胖实姆窈苤匾煌忝娴目突峁┫嘤φ挠姓攵孕缘姆褚餐匾?lt;/div> 作为数据挖掘技术中的一种重要的方法,聚类分析可以用于大量客户群细分。按不同特征将客户分群后,就可以为每一群开发独立的预测模型,并根据每一群的不同特点进行分析,从而提供差异化服务或产品。常见的聚类分析算法主要有以下三类: (1)划分法:给定一个有n个(k<n)元组或者记录的数据集,构造k个分组,每一个分组就代表一个聚类。对于给定的k,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好。使用该基本思想的算法有k-means算法、k-medoids算法和clarans算法。 (2)层次法:对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。代表算法有birch算法、cure算法以及chameleon算法等。 (3)基于密度的方法:基本思想就是:只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去,以克服基于距离的算法只能发现“类圆形”聚类的缺点。 客户价值作为客户细分的关键变量,传统的市场营销或crm方案通常按客户过去或现在对企业的利润水平细分客户,把客户划分为高赢利客户、一般赢利客户和不赢利客户,以此为基础为不同类型的客户设计相应的产品或营销方案。在客户需求瞬息万变的今天,这种战略容易忽视对潜在客户和成长性客户之间关系的构建和管理,从而影响企业长期的发展。客户价值研究给企业的启示是,客户细分不仅要考虑客户当前的利润贡献,更要考虑客户的生命周期价值;也就是说既要考虑到客户的现有价值,也要考虑到客户的潜在价值。本文将应用k-means聚类算法对客户的现有价值和潜在价值进行客户的分类。 2 k-means聚类算法思想及基本步骤 k-means聚类的核心思想如下:算法把n个向量xj(j=1,2…,n)分为c个组gi(i=1,2,…,c),并求每组的聚类中心,使得非相似性(或距离)指标的价值函数(或目标函数)达到最小。当选择欧几里德距离为组j中向量xk与相应聚类中心ci间的非相似性指标时,价值函数可定义为: 下面给出数据集xi(1,2…,n)的k-means算法的基本步骤。该算法重复使用下列步骤,确定聚类中心ci和隶属矩阵u:

步骤1:初始化聚类中心ci,i=1,…,c。典型的做法是从所有数据点中任取c个点。 步骤2:用式(3)确定隶属矩阵u。 步骤3:根据式(1)计算价值函数。如果它小于某个确定的阀值,或它相对上次价值函数值的改变量小于某个阀值,则算法停止。 步骤4:根据式(4)修正聚类中心。返回步骤2。 该算法本身是迭代的,且不能确保它收敛于最优解。k-means算法的性能依赖于聚类中心的初始位置。所以,为了使它可取,要么用一些前端方法求好的初始聚类中心;要么每次用不同的初始聚类中心,将该算法运行多次。此外,上述算法仅仅是一种具有代表性的方法;还可以先初始化一个任意的隶属矩阵,然后再执行迭代过程。 3 k-means聚类算法在客户价值分析中的应用 3.1 算法描述 本文所用的k-means算法,其聚类的数量k是在算法运行前确定的(这是很多聚类算法的典型情况),先从样本中随机捡取k个聚类中心,再根据欧氏距离把每个点分配到最接近其均值的聚类中,然后计算被分配到每个聚类的点的均值向量,并作为新的中心进行递归。具体的算法是这样的:假定数据点d={x1…….xn},任务是找到k个聚类{c1……ck}: 伪代码如下: for k=1,…n,令r(k)为从d中随机选取的一个点; while在聚类ck中有变化发生 do 形成聚类; for k=1,….,n do ck={x属于d|d(rk,x)≤d(rj,x) 对所有j=1…..k,j≠k}; end; 计算新的聚类中心; for k=1,….,n do rk =ck内点的均值向量; end; end; 3.2 测试数据及运行结果分析 k-means算法在本文中主要是对客户的现有价值和潜在价值进行聚类分析,从而对客户进行分类,最后根据行业的特定规律和方法分析聚类的结果,产生最终的分析报告。 该算法所使用的测试数据格式如表1所示。其中,sort为每组数据最终所归属的类别,id为每个客户的代码,sco1为客户的现有价值,sco2为客户的潜在价值。 表1 算法测试数据格式 字段 数据类型 字段大小 必填字段 默认值 说明 sort 文本 20 是 客户类别 id 数字 整型 是 递增,主键 sco1 数字 整型 是 0 现有价值 sco2 数字 整型 是 0 潜在价值 图1为利用k-means聚类算法分析出来的结果。其中,上面是客户分析界面,是对客户价值分析的图表显示,横坐标(x轴)为每个客户所属的类别,纵坐标y1(红色的竖条)为客户的id,y2(绿色的竖条)为客户的现有价值,y3(蓝色的竖条)为客户的潜在价值;下面是客户价值分析的列表显示,除了包含图表显示的内容以外,还显示了客户的一些基本数据,可以清楚的了解到每一类中每一个客户的详细信息。 从图1可以看出,聚类的个数k值为3,希望把客户划分为三类,从下面对客户价值分析的结果可见: 第0类客户现有价值和潜在价值都相对很高,而且之间的悬殊很小,基本上趋于平衡; 第1类客户现有价值很高,但是客户的潜在价值偏低,而且客户的现有价值和客户的潜在之间的悬殊很大; 第2类客户现有价值和潜在价值都相对很低,之间的悬殊的差距介于第0类和第1类之间。 从一个企业的运营发展来看,第0类客户是最有价值的客户,这也就是创造那80%利润的20%的客户;第1类客户目前的情况下对整个企业的盈利来说还是贡献很大的,但是从这部分客户的潜在价值来看,是最容易流失的一部分客户;第2类客户可能是任何企业的客户中绝大部分的一批客户,这批客户的流动性是最大的,也是最不稳定的一批客户,他们可能是暂时的对企业的产品感兴趣,但是可能又马上转向了另一家企业的产品。 图1 利用k-means聚类算法分析客户价值结果图 4 结束语 聚类分析发展到现在已是一个跨学科交叉的领域,它被广泛应用于经济分析、模式识别、数据分析等领域。特别在商业方面,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征组群。本文主要是利用了聚类分析中的k-means聚类算法对客户的价值进行分析,通过分析客户的现有价值和潜在价值对客户进行分类,实现对客户的区分,企业进而可以结合自己的实际情况,确定能够为自己带来高利润的那部分客户,从而研究切实可行的营销方案,为企业不断地巩固老客户,同时也赢得新客户提供决策支持。 参考文献: [1] 楼建强,赵禹骅. 证券公司经纪业务分析型crm需求设计的框架性分析. 金融与经济,2002(11) [2] david hand,heikki mannila,padhraic smyth 著;张银奎,廖丽,宋俊等译. 数据挖掘原理. 北京:机械工业出版社,2003 [3] michael j. ,gordon 著;袁卫等译. 数据挖掘---客户关系管理的科学与艺术. 北京:中国财政经济出版社,2004 [4] 朱爱群.客户关系管理与数据挖掘.北京:中国财政经济出版社,2001 [5] james,d. better together marketing research and crm . marketing news2002 vol.36, no.1015-16

上一篇:基于小波分解的灰度水印嵌入方案

下一篇:基于MVC模式的Struts框架在财务系统中的应用