欢迎来到学术参考网

浅析基于组合分类器的银行客户分类模型研究

发布时间:2015-07-02 14:33
 摘要:客户分类管理,对于银行有效地实施客户关系管理具有重要意义。由于目前分类准确度存在问题,如何有效地对客户进行分类预测就成了十分重要并亟待解决的课题。本文以银行丰富的客户基本信息以及交易行为为对象,建立客户分类预测模型,改进单一或简单组合分类器模型,提出一种基于som聚类和决策树的组合分类器方法,建立了客户分类预测模型并对模型进行优化,并探讨该模型的实际应用。
  关键词:客户关系管理;客户分类;som;决策树;组合分类器
  
   一、 研究方法概述
  
  本文采用数据挖掘技术对重庆某银行客户信息进行分析,采用som聚类方法对该银行已出现过风险的客户进行基于风险程度的聚类,将客户分为中风险客户和高风险客户,而未出险风险的客户设为低风险客户。通过决策树分类器方法对三种风险客户建立分类预测模型,得出对该银行客户风险分类预测效果较好的分类模型,以便及时有效的发现低风险和高风险客户,并对不同风险客户采取相关管理措施,以指导该银行的客户关系管理。
  分类器技术是模式识别及机器学习的重要研究领域。通过研究发现,某些模式识别问题,通常有多个特征可用于表征和识别模式,如果特征之间的差异太大,则难以将它们集中到单一分类器中进行决策。有效融合som与决策树分类的优势,是本文在技术改进方面研究的侧重点。
  1. 数据模型。数据模型是对客户风险聚类和建立客户风险分类预测的数据挖掘模型的前提和条件。
  聚类数据模型主要属性包括客户代码(id)、第一、二、三、四季度收益(c1,c2,c3,c4)及一年的收益(all),属性类型均为interval。
  分类数据模型主要属性(及属性类型)为客户id(nominal)、性别(binary)、年龄(interval),以及年初余额、各季度笔数pos消费、金额pos消费、笔数柜台存款(均为interval),和风险客户分组group1、group2、 group3(binary)等。
  2. som。som网络算法是一种聚类算法,它能根据其学习规则对输入的模式进行自动分类,即在无监督的情况下,对输入模式进行自组织学习,通过反复地调整连接权重系数,最终使得这些系数反映出输入样本之间地相互关系,并在竞争层将分类结果表示出来。因此,som神经网络在结构上模拟了大脑皮层中神经元是二维空间点阵的结构,并在功能上通过网络中神经元间的相互作用和相互竞争,模拟了大脑信息处理的聚类功能、自组织和学习功能。该算法被广泛应用于各种模式识别和分类问题中。其聚类效果评估如下:
  簇内部指标的有效性的度量都基于簇凝聚度和簇离散度。而簇的凝聚度通常以误差平方和sse来度量;簇离散度通常以总组间变差ssb来度量。相应公式如下:
  其中ci表示簇ci的质心;c表示总体质心;mi表示簇 ci中有mi个个体。
  3. 决策树。决策树方法是较为常用的分类方法,它的预测效果较好且以树形结构表示,树的节点处给出对结果预测起较为重要作用的属性,结果形象直观,便于获得更多的挖掘信息以及应用。c4.5方法是在国际上影响较大的决策树方法。因此本文采用c4.5决策树方法,对客户建立价值预测分类模型。
  决策树c4.5算法采用信息增益率(gain ratio)作为决策树模型中的属性选择的测试条件,可有效避免传统方法中熵和gini指标可能产生大量输出的测试条件的情况,提高模型的性能。研究中采用后剪枝方法,在该方法中,初始决策树按照最大规模生长,然后进行剪枝的步骤,按照自底而上的方式修剪完全增长的决策树。当模型不能再改进时终止剪枝步骤。分类效果评估如表1所示,显示了混总分类模型正确和不正确预测的实例数目的混淆矩阵。
  (1)对整个模型来说正确率和错误率为主要评估指标:
  正确率accuracy=(tp+tn)/(tp+tn+fn+fp)
  错误率error rate=( fn+fp)/(tp+tn+fn+fp)
  (2)对于更为重视类别,在混淆矩阵中主要有以下几种指标:
  真正率(true positive rate,tpr)或灵敏度(sensitivity)定义为被模型正确预测的正样本的比例,即:tpr=tp/(tp+fn)
  假负率(false negative rate,fnr)定义为被预测为负的正样本比例,即:fnr=fn/(tp+fn)
  召回率(recall)是一个广泛适用的度量,用于成功预测一个类比预测其他类更重要的应用。具体公式如下:r= tp/(tp+fn)
  以上公式同样可以推广到3类以上的模型评估。
  
  二、 案例分析
  
  1. 客户数据。本文以xx银行重庆分行为例,从xx银行重庆分行数据库中随机抽取2007年1月至12月重庆地区部分客户的数据。原始数据包含了6 079个客户约600 000条交易记录。
  2. 数据预处理。将样本数据中的空缺值以0来填充,并且将同一客户的交易记录汇总,最后每个客户在银行的不同活动(如:pos消费、网上消费)的交易记录在一个月中只出现一次。
  计算客户每个季度以及一年的利润,同时将收益属性视为相同,将其归一化。得到聚类分析的数据模型。
  将每个季度中的相同属性值合并,形成以季度为单位数据值。同时采用1-1类标号处理方法对原始数据中的三个类别进行类标号处理。得到分类预测的数据模型。
  3. 聚类分析。
  (1)研究思路。首先基于聚类数据模型,进行第一次聚类分析。因为本研究主要目的要正确鉴定银行中的三类客户,即低价值客户、一般价值客户和高价值客户。为了在客户分类上尽量少的将部分价值相对高的客户归为价值相对低的一类,研究中在第一次聚类中选择了四类,以便根据结果合理的进行价值归类。然后在第一次聚类结果中发现,第二、三、四类客户的价值远大于第一类客户,但是在数量上却远少于第一类,综合考虑下,将第一类客户进行再次聚类分析,从中找出价值相对高一点的一般价值客户,为银行尽量多的找到有价值客户。而同样为了在客户分类上尽量少的将部分价值相对高的客户归为价值相对低的一类,研究中在第二次聚类中选择了三类,以便根据结果合理的进行价值归类。最后通过对两次聚类结果的综合分析,得出银行客户的最终类别。
  (2)聚类模型结果评估。在sas enterprise miner中,建立“semma”分析流程图,模型输出第一次和第二次聚类结果,评估如下:

第一次聚类结果的统计,得出4个簇的误差平方和:
  3个簇的总ssb的值相对组内误差平方和值较大,说明簇与簇之间的分离性较好。
  综合3个类的误差平方和sse和总组间变差ssb评价指标,可以判定该聚类模型效果较好。
  4. 客户类别。基于第一次聚类结果,在聚类结果的利润标准化均值中二、三、四类客户给银行带来的利润标准化均值远远大于总平均值,故将其归为同一类。综合三类客户四个季度及一年总利润的标准化均值分别为:0.065 028、0.036 970 89、0.037 092、0.040 28、0.110 159。同样从第二次聚类结果三类客户的利润标准化均值中可以看到,第一类客户的价值远小于客户的此类客户总体平均价值,而第二、三类客户的标准化平均价值却远高于此类客户总体标准化平均价值,故将此两类归为同一类。综合第二次聚类结果中的第二、第三类客户四个季度及一年总利润的标准化平均值分别为:0.008 663、0.004 690 9、0.005 585、0.007 153、0.016 079。而第二次聚类结果中的第一类客户四个季度及一年总利润的标准化平均值分别为:0.001 170 961、0.000 594、0.000 809、0.000 975、0.002 186。整个样本数据中的客户四个季度及一年总利润的标准化平均值分别为:0.007 991、0.004 437、0.004 811、0.005 555 5、0.014 016。
 基于两次聚类结果的综合分析,将所有客户分成三类:第一次聚类中的第二、三、四类客户为高价值(第3类)客户,共475位;第二聚类结果中的第二、三类客户为一般价值(第2类)客户,共1 485位;第二次聚类结果中的第一类客户为低价值(第1类)客户,共4 119位,都可通过代码标记。
  5. 分类模型分析。
  (1)分析思路。研究中分类模型中的目标变量共有三类,即属于多目标分类模型。而决策树分类模型以两个目标变量的分类为基础,两个目标变量的分类模型相对与多目标的分类模型准确率有较大提高,因此本研究采用二叉决策树组合分类器方法得出最终分类预测模型,研究中在基于聚类结果和分类数据模型的基础上,在sas enterp-rise miner平台中采用决策树c4.5算法,对银行客户建立分类预测模型,并通过混淆矩阵对模型进行相关评估。本文用样本数据中的60%用来做分类模型,40%用来做测试值,建立客户分类预测模型。在建模过程中,以相同的4 079客户数据建立模型,以剩下的2 000个客户数据作为测试数据,来评估分类器的预测效果。
  (2)决策树模型。单个分类器的决策树模型的输出结果,如图1、图2、图3所示。
  6. 模型评估。本文采用测试数据建立混淆矩阵确定模型的总体正确率和错误率以及对三类价值客户的真正率、假负率、召回率等指标。通过模型的总体正确率以及对三类价值客户的真正率、假负率、召回率等指标对客户价值分类预测模型进行评估。
  (1)单个分类器的预测结果。组合分类器的三次分类预测结果(见表2)所示。
  (2)投标转换。类标号投票及转换结果(见表3)。
  (3)模型评估。在sas软件中没有给出组合分类器的混淆矩阵,因此本文在评估组合分类器时通过预测值与实际值相比较的方法,经过统计得出组合分类器的混淆矩阵,从而通过所得混淆矩阵对组合分类器的结果进行评估。
  客户分类预测结果与真实结果的比较,数值有一定的出入。通过预测值和实际值的对比,得出组合分类器模型的混淆矩阵,如表4所示。
  从混淆矩阵中得出各种评价指标如下所示。
  对整个模型:
   正确率accuracy=131+228+1 394/2 000=87.65%
  错误率error rate=1-87.65%=12.35%
  对第3类客户:
  真正率tpr=131/165=79.4%
  真负率tnr=228+1 394/389+1 446=88.4%
  假正率fpr=1-88.4=11.6%
  假负率fnr=1-79.4=20.6%
  精度p=131/131+26+16=75.7%
  召回率r=131/165=79.4%
  从以上评价指标可以看出,该模型的预测效果较好,可以接受此模型。
  
  三、 模型的应用
  
  应用该模型可以对银行现有客户进行科学、准确、快速的分类预测,同时可以对将来的新客户进行及时分类,确定银行的客户类别,以便银行对所有客户采取有效的管理措施,最大可能降低银行的风险,进而提高银行的收益。同时通过该模型还可以看出与银行客户价值联系较为紧密的客户属性有哪些,同时以细分市场理论为指导,通过不同的物理渠道、不同产品组合和不同的人力资源配备来分层次对低价值客户、一般价值客户、高价值客户进行差别化服务。如从该模型中可以看出:客户年初余额、第四季度柜台存款金额、第一季度柜台存款金额、第三季度柜台存款金额属性与银行客户价值相关联较大。
  
  四、 结论
  
  第一,数据挖掘技术在银行业中被越来越多的应用,成为各银行进行有效管理,降低银行成本提高竞争力的重要工具。
  第二,改进了组合分类器的简单组合模式,该组合分类器具有良好的组合分类效果,提高了分类预测结果的准确度。
  第三,采用了聚类与分类相结合的组合分类器建立客户分类预测模型,研究探讨了使用数据挖掘方法建立基于客户价值的银行客户分类模型的可行性。
  第四,研究为银行业在客户关系管理方面提供了一个科学有效的分析思路与框架。
  
  参考文献:
  1. 范莹,计华,张化祥.一种新的基于模糊聚类的组合分类器算法.计算机应用,2008,28(5): 1204-1207.
  2. 张乃尧,阎平凡. 神经网络与模糊控制. 北京;清华大学出版社, 1998.
  3. haykin. neural network - aeom prehensive foun- dation. zed edition. beijing: tsinghua university press, 2001.
  4. pang-ning tan, michael steinbach, vipin kumar. 范明,范宏建等译. 数据挖掘导论.北京: 人民邮电出版社, 2006.
  5. 范明,孟小峰译. 数据挖掘——概念与技术. 北京: 机械工业出版社, 2001.
  6. 史忠植. 知识发现. 北京: 清华大学出版社, 2002.
  基金项目:重庆市自然科学基金项目(csct,2008bb2 041);重庆市哲学社会科学规划项目(2008-zh11)。
  作者简介:李勇,博士,重庆大学经济与工商管理学院副教授、硕士生导师;许晓晓,重庆大学经济与工商管理学院硕士生;赵金涛,重庆金科房地产开发有限公司总经理助理。

上一篇:长吉图区域合作特色产业发展设想

下一篇:浅析规模大小与企业利润