树形算法在电信客户细分中的应用的策略探讨
0 引言
在当前我国电信市场激烈的竞争环境中,客户成了电信企业争夺的资源,客户关系管理(Customer Relationship Management,简称CRM)由于其能够帮助企业更好地了解客户并增加盈利,在电信企业中广泛应用。客户细分作为CRM的核心问题日益受到人们的关注。客户细分是指将市场分为具有不同需求、特征或行为的不同购买者的过程。客户细分的主要目的[1]是:①预测客户行为,为企业和客户之间交流提供了基础,使得企业客户为客户提供更好的服务、防止客户流失;②通过对客户合理的类别划分,分析出当前以及预期客户群的区段,判断不同区段的突出特点,准确认识客户的总体构成,对客户的服务和营销更具针对性。
树形算法是最常用的CRM客户细分技术,研究分析各树形算法在对电信客户数据进行细分挖掘时的不同表现,找到客户数据细分效果相对最好的算法,对于提高CRM客户细分技术有推动意义。
1.3 平衡随机森林BRF算法
平衡随机森林是在随机森林的倾斜数据处理问题上,Chen (2004)[7]提出的一种改进算法。BRF是在随机采样输入数据时,使多数类和少数类的数据量相当,在处理大型数据时较为有效。
1.4 BP神经网络
BP神经网络[8]的拓扑结构(见图1)由一个输入层、一个输出层、一个或多个隐藏层组成,单元之间由权重w相连接,每个单元有一个相关的偏倚。网络的训练过程为数据从输入层通过隐藏层到输出层前向传播,在输出层进行评估后将错误反馈回输入层,在此过程中调节网络节点连接权重和偏倚,使得网络的误差平方和最小。最终训练完成的神经网络模型用作树形模型的对照组。
2.2.1 决策树
⑴ Gini指标计算优化
在决策树[9]CART的生成中,Gini指标因为需考虑所有子集划分,所以其计算量随着特征值集的增加呈指数量上升。显然,缩小值集空间能显著降低运算复杂度,但当特征的值个数较少时(如<10),去除前1/3会影响到最优子集的选择,但随着值个数的增加,这种影响会越来越不明显。另外,当每个值出现的次数相对平均时,缩小值集空间会明显影响到最优子集的选择,而当次数差异较大时,去除出现次数非常小的值几乎不会影响到最优子集。因此,为优化Gini指标的计算,对值集空间进行缩减,方法:对于值个数小于10的特征,仅去除分布小于1%的值;而对值个数大于10的特征,去除值分布排名前1/3或其分布小于1%的值。
⑵ 树剪枝
由于前期的数据处理已经对数据中存在的噪声进行了平滑,所以不再采用决策树剪枝。
2.2.2 平衡随机森林
平衡随机森林BRF算法中主要有两个参数需要确定,一为森林规模,即森林中树的数量;二为树节点生成时随机特征集的大小。
⑴ 森林规模
通过对于BRF在不同的数据量和森林规模下的性能评估如图2所示,得出本次BRF算法效果最优值在森林规模scale=610时取到,因此将森林规模设定为610。
⑵ 树节点生成时随机特征集的大小
通过对不同的随机特征集数量设置对BRF挖掘分类效果的影响分析,N代表随机特征集个数,得出:随着随机特征集设置数量的增大,BRF效能也稍有提高,但相应地,森林的生成时间也被明显延长。另外,当随机属性集较大时,算法挖掘效果提升不明显,但森林生成时间却被极大地延长。因此,为了平衡时间与算法挖掘效果,将随机森林中的树节点生成属性集个数设定为5。
学习率的设定对神经网络的建立非常重要,如果学习率太大,可能会在不适当的解之间摆动;反之如果学习率太小,学习将进行得过于缓慢。经验法则是利用训练集迭代次数t,将学习效率置为1/t大小。图3为在均衡样本下学习率分别为1.0和1/t时神经网络收敛比较。4.5是多叉分裂树,而CART为二叉分裂树)不同而带来的性能影响外,还可能由于文本为平衡CART在Gini指标的计算中的时间复杂度问题而进行的算法优化,造成了CART分类效果的降低。神经网络性能最低,这可能是由于其训练周期不够造成的。神经网络在数据量巨大时其训练缓慢是一个不容忽视的问题。
3 结束语
如何更有效地将数据挖掘技术应用于CRM,帮助企业通过有效的交流去了解和影响客户行为,改善客户获取,客户保持,增强客户忠诚度,并由此增加盈利等是目前的研究重点。本文通过分析比较几种树形算法在电信客户细分应用中的表现,得出平衡随机森林具有相对较好的挖掘分类效果的结论,这对树形算法更好的电信客户细分应用提供了一定的技术和理论支持。当然,树形算法在客户细分应用中还有着更为深入的研究,有待于我们进一步探讨。
参考文献: 本文选自《计算机时代》2014年第5期,版权归原作者和期刊所有,如有异议,请联系第一 论文网QQ 71208696 7,我们将在第一时间处理。