基于组合分类器的信用卡欺诈识别研究
发布时间:2015-07-04 09:21
摘要随着我国信用卡发卡量和交易量的不断增长,信用卡交易中的欺诈交易也呈现出上升趋势。如何较早的识别欺诈交易,将成为金融业普遍关注的一个重要问题。本文提出了一种基于adaboost组合分类器的信用卡欺诈识别模型,并通过实证研究证明模型能较为准确的识别欺诈交易。
关键词欺诈识别;数据挖掘;机器学习;分类
1引言
随着世界经济的不断增长和信息技术的迅猛发展,全球的信用卡使用量持续上升,信用卡已成为支付领域的主要媒介。截至2004年底,美国的信用卡发行规模达到6.57亿张,平均每个家庭拥有6.3张信用卡。在零售业的所有客户支付工具中,借记卡和贷记卡的交易额已经超过了总交易额的50%,大有取代现金和个人支票交易的趋势。而我国从2003年开始,各大银行都把信用卡的发行作为业务重点,宣传战、产品战、地域战随处可见,信用卡规模急速扩大。发达国家的经验显示,随着发卡量的增大,信用卡的欺诈风险将直线上升,由于信用卡欺诈而给银行造成的损失也将居高不下。据visa和mastercard两大信用卡联盟的统计,全球信用卡欺诈涉及金额已超过100亿美元[1]。如何加强对信用卡欺诈的识别和防范,将成为银行风险控制的一个焦点。
对于处于“跑马圈地”阶段的我国银行业,能否未雨绸缪,及时的建立一套信用卡欺诈识别和防范体系,既是我国信用卡业务健康发展的重要保障,又是一项兼有前瞻性和现实性的有益探索。
2信用卡欺诈风险与欺诈识别模型研究
信用卡的欺诈风险是指持卡人由于遭人冒申请、盗领、伪造、失窃等原因而发生损失的风险。由于欺诈风险所造成的损失绝大部分都由发卡行承担,因此对信用卡欺诈的识别和防范是银行风险控制的一项重要内容。
从欺诈者在信用卡交易中的不同角色进行分类,信用卡欺诈可以分为商家欺诈、持卡人欺诈和第三方欺诈[2]。商家欺诈来源于合法商家的不法雇员或者与欺诈者勾结的不法商家。在现实中,商家雇员有条件接触到顾客的卡信息,甚至持卡离开顾客的视线,这都给不法雇员带来了复制或保留卡信息的机会。持卡人欺诈是由不道德的真实持卡人进行的,通常是持卡人充分利用信用卡的责任条款,在收到货物后称没有进行交易或者没有收到货物。第三方欺诈是目前信用卡欺诈的主要形式,是指不法分子非法获取他人信息,并利用这些信息伪造或骗领信用卡进行交易。由于非法获取信息的渠道较多,欺诈方式也不尽相同。
按照不同的欺诈手段,信用卡欺诈又可以分为身份盗窃欺诈、未达卡风险、遗失被窃风险、道德风险、欺诈犯罪风险五种[3]。
由于信用卡欺诈带来了巨大的风险和损失,因此银行一直在寻求一个行之有效的欺诈识别模型。最初是利用业务人员的经验知识对欺诈交易进行手动识别,但是随着信用卡发卡量的大幅增长和交易量的不断提高,信用卡欺诈愈演愈烈,且由于欺诈手法的不断翻新,业务人员很难迅速有效的从海量交易记录中觉察出欺诈交易。这时,需要有一个能对持卡者和信用卡交易进行快速判断的模型或系统来辅助业务人员的工作,而基于判别分析和回归分析的统计方法能通过给持卡者或信用卡交易进行信用评分的方式来识别欺诈交易,得到了广泛的应用。近年来,数据挖掘技术的兴起使人们开始关注基于数据挖掘技术的信用卡欺诈识别模型。利用数据挖掘中的分类方法,可以通过建立一个分类模型来准确的将欺诈交易和非欺诈交易区分开来,从而为欺诈防范和风险控制提供决策支持。人工神经网络[4][5][6]、决策树[7]等分类算法在欺诈识别上都进行了有益的尝试,取得了较好的预测效果。但是单一分类器的分类效能相对有限,不能得到一个很高的分类准确率,本文试图利用组合分类器来建立一个更为准确的信用卡欺诈识别模型。
3组合分类器与adaboost算法
实践中人们发现,分类算法实际上对样本集是敏感的,也就是说,在不同的训练样本和测试样本上,或者是在相同样本的不同特征空间上,同一分类器会有不同的表现。没有哪种分类算法是最优的,但是将多个分类器组合起来却能有效的提高分类的精度[8]。
所谓组合分类器是指几个分类器通过某种策略组合在一起对某个事例进行分类。组合的策略可以是模型组合,可以是不同的算法组合,也可以通过对样本取样,变化事例空间,构造不同的分类器,然后按照一定的加权方法对分类器进行组合,得到最后的分类器。组合分类器的应用,克服了单一分类器的诸多缺点,如对样本的敏感性,难以提高分类精度等等,在字符识别[9]、文本分类[10]、面部表情识别[11]等领域已经获得了较好的应用效果。
adaboost[12]是boosting算法的一种,其主要思想是给每一个训练样本分配一个权重,表明它被某弱分类器选入训练集的概率,初始时权重设为1/m,m为样本个数。用一个弱分类算法在训练集上进行训练,训练后对样本权重进行调整,训练失败的样本权重增大,训练成功的样本权重减少,使分类算法能在下一轮训练中集中力量对训练失败的样本进行学习。然后,在权重更新后的训练集上继续训练,不断调整样本权重,循环往复,从而得到一系列的弱分类器。这些弱分类器就构成组合分类器,组合分类器最终预测结果的产生采用了有权重的投票方式,而权重就是各个弱分类器的准确率。这种方法不要求单个分类器有高的识别率,但经过多分类器融合的组合分类器则具有了高的识别率。
adaboost算法过程如下:
在多数情况下,只要每个分类器都是弱分类器,即分类准确率超过50%,比随机猜想好,那么组合分类器的训练误差就能随着t的增大而变得任意小,同时,在t很大的情况下也很少会发生过拟合(overfitting)现象。
4基于adaboost的信用卡欺诈识别模型
4.1建模思路
信用卡欺诈者的消费行为习惯通常与真实持卡人会具有较大的不同,而持卡人的账户数据和交易数据在很大程度上能反映和刻画消费习惯和模式,因此可以将账户资料和交易资料作为输入变量来建模。
由于欺诈交易只是少数,因此样本集中存在着两类样本的不对称分布(skeweddistribution)问题。首先要对样本进行处理,并进行必要的数据预处理过程,然后再进行模型的训练。
adaboost是通过弱分类器在样本集上的多次训练来得到组合分类器的,这里选择c4.5决策树算法作为其中的弱分类算法。为了比较adaboost算法与单分类器的分类效能,本文分别利用c4.5算法和c4.5+adaboost来建模,得到一个基于c4.5算法的单分类器和一个基于adaboost的组合分类器。
4.2实证过程
本文以国外某商业银行的信用卡真实交易数据为研究对象,从数据库中抽取679位信用卡持有人的21,858条交易记录构成样本集。其中非欺诈交易19948笔,欺诈交易1910笔,分别将其fraud属性标记为0和1。仅根据交易的相关信息是很难准确判断是否为欺诈交易的,因为消费习惯和模式与持卡人的特征属性有较大的关联关系。因此本文将描述持卡人特征的一些属性也参与建模,这样每个样本就有了62个属性。再根据业务经验,去掉与欺诈无关或相关性极小的属性,最终确定35个相关属性作为模型输入。
从样本数量分布上看,两类样本存在着严重的不对称分布问题,如果直接在这样一个样本集上进行模型训练,会使模型偏向非欺诈交易,识别欺诈交易的能力变差。为此,这里采用减少多数样本(under-sampling)的方法,即从非欺诈交易样本中随机选取与欺诈交易数量大致相当的部分样本,来与欺诈交易样本组成一个两类样本数量相当的样本集。同时,将这一样本集按照7:3的比例分成训练集和测试集,分别用作模型的训练和测试。
[1]陈雷.国际信用卡欺诈与预防[j].中国信用卡,2004,(6):43-47
[2]苗绘.信用卡欺诈及其防范[j].金融教学与研究,2005,(4):31-35
[3]陈建.信用卡的反欺诈管理[j].中国信用卡,2005,(8):20-24
[4]rov,eben,tch:aneueee/iafeoncomputationalintelligenceforfinancialengineering,1997:220-226
[5],,2002ieeeinternationalconferenceonfuzzysystems,2002
[6]盛昭瀚,柳炳祥.一种基于粗集神经网络的欺诈风险分析方法[j].应用科学学报,2003,(2):209-213
[7]icaldatabasetransactions:ideknowledgeanddataengineeringexchangeworkshop,1997:107-113
[8]lemethodsinmachinelearning[a].in:enotesincomputerscience[c].2000,1857(1):1-15
[9]lxu,k,sofcombiningmultipleclassifiersandtheirapplicationstohandwritingrecognition[j].ieeetransonsystems,manandcybernetics,1992,22(3):418-435
[10]re,xter,aboosting-basedsystemfortextcategorization[j].machinelearning,2000,39(2/3):135-168
[11]杨国亮,王志良,任金霞.采用adaboost算法进行面部表情识别[j].计算机应用,2005,25,(4):946-948
[12],on-theoreticgeneralizationofon-linelearningandanapplicationtoboosting[j].journalofcomputerandsystemsciences,1997,55(1):119-139
关键词欺诈识别;数据挖掘;机器学习;分类
1引言
随着世界经济的不断增长和信息技术的迅猛发展,全球的信用卡使用量持续上升,信用卡已成为支付领域的主要媒介。截至2004年底,美国的信用卡发行规模达到6.57亿张,平均每个家庭拥有6.3张信用卡。在零售业的所有客户支付工具中,借记卡和贷记卡的交易额已经超过了总交易额的50%,大有取代现金和个人支票交易的趋势。而我国从2003年开始,各大银行都把信用卡的发行作为业务重点,宣传战、产品战、地域战随处可见,信用卡规模急速扩大。发达国家的经验显示,随着发卡量的增大,信用卡的欺诈风险将直线上升,由于信用卡欺诈而给银行造成的损失也将居高不下。据visa和mastercard两大信用卡联盟的统计,全球信用卡欺诈涉及金额已超过100亿美元[1]。如何加强对信用卡欺诈的识别和防范,将成为银行风险控制的一个焦点。
对于处于“跑马圈地”阶段的我国银行业,能否未雨绸缪,及时的建立一套信用卡欺诈识别和防范体系,既是我国信用卡业务健康发展的重要保障,又是一项兼有前瞻性和现实性的有益探索。
2信用卡欺诈风险与欺诈识别模型研究
信用卡的欺诈风险是指持卡人由于遭人冒申请、盗领、伪造、失窃等原因而发生损失的风险。由于欺诈风险所造成的损失绝大部分都由发卡行承担,因此对信用卡欺诈的识别和防范是银行风险控制的一项重要内容。
从欺诈者在信用卡交易中的不同角色进行分类,信用卡欺诈可以分为商家欺诈、持卡人欺诈和第三方欺诈[2]。商家欺诈来源于合法商家的不法雇员或者与欺诈者勾结的不法商家。在现实中,商家雇员有条件接触到顾客的卡信息,甚至持卡离开顾客的视线,这都给不法雇员带来了复制或保留卡信息的机会。持卡人欺诈是由不道德的真实持卡人进行的,通常是持卡人充分利用信用卡的责任条款,在收到货物后称没有进行交易或者没有收到货物。第三方欺诈是目前信用卡欺诈的主要形式,是指不法分子非法获取他人信息,并利用这些信息伪造或骗领信用卡进行交易。由于非法获取信息的渠道较多,欺诈方式也不尽相同。
按照不同的欺诈手段,信用卡欺诈又可以分为身份盗窃欺诈、未达卡风险、遗失被窃风险、道德风险、欺诈犯罪风险五种[3]。
由于信用卡欺诈带来了巨大的风险和损失,因此银行一直在寻求一个行之有效的欺诈识别模型。最初是利用业务人员的经验知识对欺诈交易进行手动识别,但是随着信用卡发卡量的大幅增长和交易量的不断提高,信用卡欺诈愈演愈烈,且由于欺诈手法的不断翻新,业务人员很难迅速有效的从海量交易记录中觉察出欺诈交易。这时,需要有一个能对持卡者和信用卡交易进行快速判断的模型或系统来辅助业务人员的工作,而基于判别分析和回归分析的统计方法能通过给持卡者或信用卡交易进行信用评分的方式来识别欺诈交易,得到了广泛的应用。近年来,数据挖掘技术的兴起使人们开始关注基于数据挖掘技术的信用卡欺诈识别模型。利用数据挖掘中的分类方法,可以通过建立一个分类模型来准确的将欺诈交易和非欺诈交易区分开来,从而为欺诈防范和风险控制提供决策支持。人工神经网络[4][5][6]、决策树[7]等分类算法在欺诈识别上都进行了有益的尝试,取得了较好的预测效果。但是单一分类器的分类效能相对有限,不能得到一个很高的分类准确率,本文试图利用组合分类器来建立一个更为准确的信用卡欺诈识别模型。
3组合分类器与adaboost算法
实践中人们发现,分类算法实际上对样本集是敏感的,也就是说,在不同的训练样本和测试样本上,或者是在相同样本的不同特征空间上,同一分类器会有不同的表现。没有哪种分类算法是最优的,但是将多个分类器组合起来却能有效的提高分类的精度[8]。
所谓组合分类器是指几个分类器通过某种策略组合在一起对某个事例进行分类。组合的策略可以是模型组合,可以是不同的算法组合,也可以通过对样本取样,变化事例空间,构造不同的分类器,然后按照一定的加权方法对分类器进行组合,得到最后的分类器。组合分类器的应用,克服了单一分类器的诸多缺点,如对样本的敏感性,难以提高分类精度等等,在字符识别[9]、文本分类[10]、面部表情识别[11]等领域已经获得了较好的应用效果。
adaboost[12]是boosting算法的一种,其主要思想是给每一个训练样本分配一个权重,表明它被某弱分类器选入训练集的概率,初始时权重设为1/m,m为样本个数。用一个弱分类算法在训练集上进行训练,训练后对样本权重进行调整,训练失败的样本权重增大,训练成功的样本权重减少,使分类算法能在下一轮训练中集中力量对训练失败的样本进行学习。然后,在权重更新后的训练集上继续训练,不断调整样本权重,循环往复,从而得到一系列的弱分类器。这些弱分类器就构成组合分类器,组合分类器最终预测结果的产生采用了有权重的投票方式,而权重就是各个弱分类器的准确率。这种方法不要求单个分类器有高的识别率,但经过多分类器融合的组合分类器则具有了高的识别率。
adaboost算法过程如下:
在多数情况下,只要每个分类器都是弱分类器,即分类准确率超过50%,比随机猜想好,那么组合分类器的训练误差就能随着t的增大而变得任意小,同时,在t很大的情况下也很少会发生过拟合(overfitting)现象。
4基于adaboost的信用卡欺诈识别模型
4.1建模思路
信用卡欺诈者的消费行为习惯通常与真实持卡人会具有较大的不同,而持卡人的账户数据和交易数据在很大程度上能反映和刻画消费习惯和模式,因此可以将账户资料和交易资料作为输入变量来建模。
由于欺诈交易只是少数,因此样本集中存在着两类样本的不对称分布(skeweddistribution)问题。首先要对样本进行处理,并进行必要的数据预处理过程,然后再进行模型的训练。
adaboost是通过弱分类器在样本集上的多次训练来得到组合分类器的,这里选择c4.5决策树算法作为其中的弱分类算法。为了比较adaboost算法与单分类器的分类效能,本文分别利用c4.5算法和c4.5+adaboost来建模,得到一个基于c4.5算法的单分类器和一个基于adaboost的组合分类器。
4.2实证过程
本文以国外某商业银行的信用卡真实交易数据为研究对象,从数据库中抽取679位信用卡持有人的21,858条交易记录构成样本集。其中非欺诈交易19948笔,欺诈交易1910笔,分别将其fraud属性标记为0和1。仅根据交易的相关信息是很难准确判断是否为欺诈交易的,因为消费习惯和模式与持卡人的特征属性有较大的关联关系。因此本文将描述持卡人特征的一些属性也参与建模,这样每个样本就有了62个属性。再根据业务经验,去掉与欺诈无关或相关性极小的属性,最终确定35个相关属性作为模型输入。
从样本数量分布上看,两类样本存在着严重的不对称分布问题,如果直接在这样一个样本集上进行模型训练,会使模型偏向非欺诈交易,识别欺诈交易的能力变差。为此,这里采用减少多数样本(under-sampling)的方法,即从非欺诈交易样本中随机选取与欺诈交易数量大致相当的部分样本,来与欺诈交易样本组成一个两类样本数量相当的样本集。同时,将这一样本集按照7:3的比例分成训练集和测试集,分别用作模型的训练和测试。
实证研究以windowsxp为平台,数据存储在mssqlserver2000中,实验工具为weka数据挖掘软件。weka是由新西兰waikato大学的研究人员开发的一个数据挖掘工具(/">参考文献
[1]陈雷.国际信用卡欺诈与预防[j].中国信用卡,2004,(6):43-47
[2]苗绘.信用卡欺诈及其防范[j].金融教学与研究,2005,(4):31-35
[3]陈建.信用卡的反欺诈管理[j].中国信用卡,2005,(8):20-24
[4]rov,eben,tch:aneueee/iafeoncomputationalintelligenceforfinancialengineering,1997:220-226
[5],,2002ieeeinternationalconferenceonfuzzysystems,2002
[6]盛昭瀚,柳炳祥.一种基于粗集神经网络的欺诈风险分析方法[j].应用科学学报,2003,(2):209-213
[7]icaldatabasetransactions:ideknowledgeanddataengineeringexchangeworkshop,1997:107-113
[8]lemethodsinmachinelearning[a].in:enotesincomputerscience[c].2000,1857(1):1-15
[9]lxu,k,sofcombiningmultipleclassifiersandtheirapplicationstohandwritingrecognition[j].ieeetransonsystems,manandcybernetics,1992,22(3):418-435
[10]re,xter,aboosting-basedsystemfortextcategorization[j].machinelearning,2000,39(2/3):135-168
[11]杨国亮,王志良,任金霞.采用adaboost算法进行面部表情识别[j].计算机应用,2005,25,(4):946-948
[12],on-theoreticgeneralizationofon-linelearningandanapplicationtoboosting[j].journalofcomputerandsystemsciences,1997,55(1):119-139
上一篇:存储备份技术探析