信用风险数据集市的构建的几个方法分析
1 背景与现状分析
1.1 系统建设必要性
随着世界经济形势和金融环境发生的巨大变化,作为金融市场中的重要组成部分,商业银行在发展中面临的风险很多,而信用风险始终是其面临的最主要风险之一,也是影响一国经济发展的主要因素。与此同时,监管部门也规定商业银行新资本协议的整体规划和实施路径中,信用风险数据集市是新协议实施合规达标的必要条件之一。
在此背景下,结合时下迅速发展起来的“大数据”思想,在商业银行信用风险管理中,构建信用风险数据集市成已为必然的选择。
1.2 银行同业系统建设情况
近年来国内外同业银行期纷纷开展风险数据标准设计与风险数据集市建设项目。通过数据系统的建设加大对各类内外部数据的运用,借此提高风险管理的能力和水平。
国外方面,在不断加大对信用风险管理的关注力度和研究力度的同时,各类数据运用系统的建设已全面展开并在信用风险管理中得到了运用。Mckinsey公司的研究表明:信用风险占银行总体风险敞口的60%,是导致银行破产的最主要因素,也是导致区域性金融危机甚至全球性金融危机的根本原因之一[1]。国外的许多先进银行已实现了内外部数据的高度整合,并已积累了大量历史数据,建立起各自的信用风险违约数据库。
国内方面,我国的商业银行也在紧跟国际发展步伐,近年来也逐步建立起了基于计算机技术的信用风险管理体系。如:平安银行开展了“风险数据集市建设项目”;宁波鄞州银行开展了“全面风险管理系统项目”;徽商银行开展了“徽商银行零售信用风险数据集市项目”;天津农商行开展了“信用风险数据集市管理系统项目”等[2]。但与国外先进银行相比,还存在较大的差距,因此需要加快基于数据的信用风险管理系统。
2 信用风险数据集市构建探索
2.1 信用风险数据集市定位
信用风险数据集市的定位是构建一个适应商业银行数据特点和信用风险管理需求的数据中心系统,为进一步完善商业银行全方位、多层次的信用风险管控体系服务。通过对海量的内外部数据按不同主题进行区分和加工,计算出各类指标等中间数据和衍生数据,将数据中的隐含信息最大程度的加以挖掘、表达和运用,为信用风险管理提供服务。
2.2 信用风险数据集市建设目标
信用风险数据集市的总体建设目标是建立一个以信用风险管理为主、面向全行各业务部门的、支持各类信用风险应用的数据集市环境。数据集市的数据范围需要覆盖银行内部客户方面、交易与投资业务方面、信贷资产业方面的所有细节数据与相关风险应用的派生数据,为各个不同的风险应用系统之间提供数据共享服务,以保证全行一致的风险数据视图根据信用风险数据集市的定位,并结合商业银行信用风险管理的需求和特点,系统的建设目标主要包括以下几方面:
1) 解决各系统数据分散、彼此独立的问题,构建全行性的数据平台,对来自不同系统的数据进行整合后的共享,实现数据的统一管理和利用。
2) 尽可能多的收集并利用与信用风险相关的各类外部数据,如工商、税务、征信等方面的数据,使商业银行内部的信用风险管理从有限的内部资源中延伸到广阔的外部环境中,利用更多有价值的数据信息为信用风险管理服务。
3) 对获取的基础数据进行掘取和加工,提炼出客户、产品、行业、机构等不同维度中的隐含信息,分析并掌握数据背后的潜在规律,为信用风险管理提供依据,完成业务数据向信用风险管理信息的过渡。
4) 面对信用风险管理中不同下游应用系统的数据需求,在集市内部区分不同的数据模型,在集市外部提供统一的数据供应平台,保证各应用系统间数据的统一性。
5) 解决行内各部门间信息不对称的问题,统一内外部监管报表数的据口径,实现集市自动对不同系统、不同报表之间数据的校验,提高报表数据质量,并提供灵活查询工具实现随时、随需提取数据生产报表。
3 系统总体架构
3.1 数据采集方案
信用风险数据集市是对数据进行应用的系统,因此数据采集是保证系统性能和应用效果的前提和基础。在设计数据采集方案时需要重点考虑数据质量、采集效率、ODS数据库建设以及数据处理过程ETL的实现。
为保证数据质量,除了在系统建设初期通过数据分析和业务部门访谈来查找和修正错误数据外,在系统架构的设计中也应该引入数据质量管理和控制机制,在数据采集的源头上做好数据质量管理和控制,避免因数据质量问题造成上层应用的失真。
数据质量管理和控制机制的工作原理如图1所示。采集来的数据被存储在数据存储区中,在数据存储区之后设定一系列的数据质量检查规则对数据质量进行检查。质量检查规则是通过数据质量规则库来完成的,数据质量规则库是事先定义好的检查规则,当然也可以随时对其中的规则进行修改和补充。
ODS数据库对数据的采集应当实现的目标是:将内部各业务系统数据及外部不同来源的数据采集至统一的ODS数据仓库,再经过统一的ETL处理过程后供应给信用风险数据集市,如图2所示。
各业务系统数据先经过ODS汇总后,再统一供应给集市,这样可大大提高数据采集效率,同时减少数据冗余问题,并节省存储空间。
ETL的处理过程是指数据的抽取、转换和装载,主要作用是减少对数据仓库时间窗口的占用,减少数据的转换过程。随着基于信用风险数据集市应用的增多,ODS到ETL的过程应减少依赖性,避免应用的增加造成ETL的重复开发。
上述的数据采集架构,从数据的采集路径与环节看,数据流明确,环节简单,对原业务系统影响很小。而信用风险数据集市的数据统一来源于ODS,也能保证系统的安全性也较高,且有效避免了重复的数据整合与转换工作[3] 。
3.2 系统逻辑结构设计
信用风险数据集市以挖掘数据中的信用风险信息为目的,对于数据的应用应打破关系型数据库理论中标准泛式的约束,将业务系统的数据重新组织和整理,为各类信用风险应用提供数据支持。在对整个系统的逻辑结构进行设计时,应从面向应用的角度出发,采用“自顶向下”的设计方法,对数据分层处理、逐层加工。按照这个思想,将信用风险数据集市的逻辑结构设计如图3所示。
系统逻辑架构自下而上分为三层
:基础层、模型层和应用层。基础层包括从ODS数据仓库以及ETL处理过程;模型层包括数据缓冲层、基础整合层、加工汇总层和应用接口层;应用层指针对信用风险数据的各类应用,如:为相关系统供数、RWA及经济资本计算、固定报表、灵活查询、指标查询等。
3.2.1 基础层的设计
基础层的关键在于ETL过程的设计。ETL过程的作用是将ODS获取的数据,经过一系列加工处理加载进信用风险数据集市的过程。ETL处理流程主要包括以下主要步骤[4]:
数据抽取:数据抽取就是将集市需要的业务数据从ODS数据仓库抽取到ETL的数据转换区的过程;
数据检查和出错处理:在数据转换区中,对源数据质量进行检查,形成检查报告,并进行相应的出错处理,对于严重错误,需要系统维护人员现场做出相应的处理。
数据转换:数据转换包括对源系统数据进行整理、剔除、合并、验证等一系列转换工作,最后形成集市数据结构所需的数据,存放在转换区的数据表中。
数据加载:数据加载将数据转换的结果数据加载到集市,并形成数据加载情况的报告。
经过以上ETL处理流程,能够使数据源稳定的、周期性的导入到信用风险数据集市中。
3.2.2 模型层的设计
模型层是信用风险数据集市的核心,这层的作用是组织信用风险管理所需的数据,形成信用风险类应用的数据基础。基础区按不同风险主题采用模型化结构存储信用风险应用所需的各类明细业务数据。因为各类信用风险采用的计量方法不尽相同,因此基础区按不同风险主题对数据进行整合。又因基础数据来自不同的源系统,结构复杂多样,为将这些数据整合、关联起来,形成完整的信用风险数据信息,同时在结构上保持一定的稳定性和一致性,因此在不同主题下采用模型化结构对带有同样业务特征的数据进行分类存储。
在模型层,经过ETL处理后的数据被存储在数据缓冲层中。数据缓冲层是一个数据临时存储区,其作用是等待数据被进一步调用。
在数据缓冲层之上是基础数据整合层,在这层中,集市将按照不同主题域对数据做初步的区分和整理。主题域的划分是逐层细化的,基础整合层主要有对公信贷、零售信贷、公共主题、投资交易几个主题。其中对公信贷包括参与主题、客户评级、交易活动、业务流程、风险缓释、债项评级、不良资产、财务信息等二级主题;零售信贷包括个贷、个人征信、信用卡、零售分池、中小企业等二级主题。
经过基础整合层的主题域划分,各类业务明细数据和外部数据已被做出初步汇总和区分,不同来源的数据经过主题的划分被有效关联起来,数据间的聚合程度得到了提高,有利于数据的进一步运用。
基础整合层之上是加工汇总层,加工汇总层完全由应用驱动,根据信用风险管理应用需求来存储和加工汇总后的指标数据等。该部分可以根据不同应用系统的指标进行划分二级主题,也可以根据风险的收益、资本、敞口等等进行划分主题对基础整合层的数据加以挖掘和提炼,进一步从基础数据中提取有效信息,产生更多的中间数据、指标数据和衍生数据。
信用风险数据集市中,直接与各类应用对接的是应用接口层。这层定义了集市与具体应用间的数据接口、数据文本、视图和建模款表等,将数据模型中的信息通过具体应用表达出来,使信用风险应用得以实现。
3.2.3 应用层的设计
应用层是信用风险数据集市建设的目的所在,根据商业银行信用风险管理方面的具体需求可通过信用风险数据集市支持内部评级系统、风险预警系统等系统的建设,完成RWA及经济资本和各类指标的计算,提供内外部监管报表的查询等。在下文中将对信用风险数据集市的具体应用展开进一步探讨。
4 信用风险数据集市的应用
信用风险数据集市的应用总体可分为三个方面:数据支持、报表和统计分析和决策支持,如图4所示。
4.1 数据支持类应用
数据支持是指为各类信用风险管理类的系统供数,满足各类信用风险应用系统的数据采集需求,保证这类系统的应用的顺利实现。同时也与这类信用风险应用系统进行交互,即不仅为下游应用系统提供数据支持,也吸收这类系统产生的数据结果,用于更多的信用风险管理当中。因此,信用风险数据集市在数据支持方面是双向的,数据流的进、出两条线是并行的。
4.2 报表和统计分析类应用
报表和统计分析的应用分为定制报表和灵活查询。定制报表指根据信用风险管理的内外部监管报表需求,按确定的报表样式、数据口径、取数规则、勾稽关系和报表频度等制作出直接可用的报表。灵活查询则是不针对具体报表需求的数据提供,只提供足够多的数据字段,由用户自己根据需求选取所需字段并加以组合,形成符合自身需求的报表或查询结果。
4.2.1 风险分析主题的划分
在实现报表和统计分析类的应用中,应重点考虑两方面问题:一是如何最才能大程度的满足各类不同的报表或数据查询需求,二是需要考虑随着业务的发展以及信用风险管理的不断深入,报表和统计分析的需求还将不断增长和扩展。从这两点出发,需要将数据区分成不同的风险分析主题。
风险主题的划分应从报表及统计分析的需求出发,先把集市中已有的数据区分成诸如资产质量、不良资产、预警监控等不同主题,再对每个主题进行挖掘和补充,利用已有数据产生更多隐含数据,丰富每个主题的数据字段。每个主题之间是彼此独立但又相互调用的关系。除了划分风险分析主题外,商业银行还可以针对自身的需求和特点建立专题话的分析主题,如集团客户分析,关联交易分析等。
4.2.2 报表工具的选择
报表和统计分析类应用的另一个难点就是灵活查询的实现问题。提供灵活查询功能的目的在于使用户可根据需要随时提取数据信息或生成报表。因此,灵活查询需要结合专门的报表工具才能得以实现。
综合考虑报表工具的缓存能力、数据提取的灵活程度等方面,选择了ORACLE公司的BIEE报表工具。它不仅在数据缓存和提取上表现良好,还可以完整的连接企业内各个异构数据源,从而使报表制作变的更加智能。用户可以通过不同数据字段、度量维度和分析维度轻松组合出所需的报表,必要时还可以通过图形展示。
4.3 决策支持类应用
决策支持引进不同的决策分析模型,通过大量的数据计算对某个风险专题进行推演,其计算
结果可反映管理决策的可行性或给出可供选择的方案。如RWA及经济资本的计算、压力测试、组合管理等都是信用风险数据集市在决策支持方面的应用。
5 结束语
本文从商业银行信用风险管理发展的需要出发,结合内外部监管要求,探讨了信用风险数据集市的建设方法,并详细阐述了系统在数据质量控制、数据模型设计和具体运用方面的构建思路并给出解决方案。
从商业银行信用风险管理的发展趋势来看,信用风险数据集市必将过渡更为包含更多数据信息的大数据系统,并且还要从独立的系统发展成为与云端数据交互的共享系统。
参考文献:
[1] 王彦龙.企业级数据仓库原理、设计与实践[M].北京:电子工业出版社,2009.
[1] 杜丽群.我国商业银行信用风险管理现状及对策研究[C].中国经济网,2010 .
[3] 项目组资料.某银行数据集市建设的解决方案.2013.
上一篇:论系统数据库的智能化管理的路径