数据挖掘技术在信用卡业务中的应用案例

数据挖掘技术在信用卡业务中的应用案例

信用卡业务具有透支金额巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛使用数据挖掘技术来推动信用卡业务的发展,实现全面的绩效管理。自65438年至0985年我国发行第一张信用卡以来,信用卡业务发展突飞猛进,积累了海量的数据。数据挖掘在信用卡业务中的重要性越来越明显。

一、数据挖掘技术在信用卡业务中的应用数据挖掘技术在信用卡业务中的应用主要包括分析型客户关系管理、风险管理和运营管理。

1.分析型CRM

分析型CRM应用包括市场细分、客户获取、交叉销售和客户流失。信用卡分析师收集并处理大量的数据,对这些数据进行分析,找到它们的数据模式和特征,分析某一客户群体的特征、消费习惯、消费倾向和消费需求,进而推断出相应消费群体的下一步消费行为,然后以此为基础,针对特定的产品,对所识别的消费群体进行主动营销。与传统的不区分消费者特征的大规模营销方式相比,这种方式大大节约了营销成本,提高了营销效果,从而为银行带来更多的利润。根据响应模型预测的客户购买概率来制定对客户使用什么样的营销方式,对响应概率高的客户采取更加积极、人性化的营销方式,如电话营销、上门营销等;对于回复概率低的客户,可以选择低成本的电子邮件和信函营销方式。除了获取新客户,保持现有优质客户的忠诚度也很重要,因为留住一个老客户的成本远远低于开发一个新客户的成本。在客户关系管理中,通过数据挖掘技术,找出流失客户的特征,找出他们的流失规律,这样就可以在那些具有相似特征的持卡人流失之前对其进行针对性的补偿,让优质客户继续为银行创造价值。

2.风险管理

数据挖掘在信用卡业务中的另一个重要应用是风险管理。在风险管理中使用数据挖掘技术可以建立各种信用评分模型。主要有三类模型:申请信用卡记分卡、行为信用记分卡和催收信用记分卡,为信用卡业务提供事前、事中和事后的信用风险控制。

申请评分模型专门用于新申请人的信用评估。它适用于信用卡信用审查阶段。通过申请人填写的个人信息,可以有效、快速地识别和划分客户质量,决定申请是否被批准,并为批准的申请人核定初始信用额度,帮助发卡行从源头控制风险。应用评分模型不依赖于人的主观判断或经验,有利于发卡银行实施统一规范的信贷政策。行为评分模型是针对现有持卡人,通过对持卡人行为的监测和预测,从而对持卡人的信用风险进行评估,并根据模型的结果,智能决定是否调整客户的信用额度,授权时决定是否授权,到期时是否续卡,对可能出现的进行预警。催收评分模型是对申请评分模型和行为评分模型的补充,是在持卡人出现逾期或坏账时建立的。收款记分卡用于预测和评估针对坏账采取的措施的有效性,如客户对警告信的反应的可能性。这样,发卡银行就可以根据模型的预测,采取相应的措施来处理不同程度的逾期客户。以上三个评分模型建立时,使用的数据主要是人口学数据和行为学数据。人口统计数据包括年龄、性别、婚姻状况、学历、家庭成员特征、住房情况、职业、职称、收入状况等。行为数据包括持卡人过去的使用频率、金额、还款等表现信息。因此,利用数据挖掘技术可以使银行有效地建立事前、事中和事后的信用风险控制体系。

3.运营管理

数据挖掘在信用卡运营管理领域的应用虽然不是最主要的,但对于国外很多发卡公司来说,在提高生产效率、优化流程、预测资金和服务需求、提供服务订单等方面都取得了很大的成绩。

二、常用的数据挖掘方法

在上述数据挖掘技术在信用卡领域的应用中,有许多工具可以用来开发预测和描述模型。有些使用统计方法,如线性回归和逻辑回归;有的有非统计或混合方法,如神经网络、遗传算法、决策树、回归树等。这里只讨论几种常见的典型方法。

1.线性回归

简单线性回归分析是一种量化两个连续变量之间关系的统计技术。这两个变量分别是因变量(预测变量)。利用这种方法,我们可以通过数据找到一条线,线上的点使对应数据点的方差最小。在为营销、风险和客户关系管理建立模型时,通常有多个独立变量。用多个自变量预测一个连续变量称为多元线性回归,用线性回归方法建立的模型通常是稳健的。

2.逻辑回归

逻辑回归是最广泛使用的建模技术,它类似于线性回归。两者的主要区别在于,logistic回归的因变量(被预测的变量)不是连续的,而是离散的或类型变量。如果申请评分模型,可以用logistic回归方法选择关键变量确定回归系数。以申请人的关键变量为自变量,x1,x2,…xm,y=[1,申请人是不良客户;0申请人是一个好客户,是一个因变量。对于两类因变量,一般假设客户变质的概率为p(y = 1)= eβ0β1×1…βmxm/1 eβ0β1×1…βmxm。

3.神经网络

神经网络处理与回归处理非常不同。它不遵循任何概率分布,而是模仿人脑的功能。可以认为它从每一次经历中提取和学习信息。神经网络系统由一系列类似人脑神经元的节点组成,这些节点通过网络相互连接。如果有数据输入,他们可以做确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐含层)和输出层组成。中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行结果。

4.遗传算法

与神经网络类似,遗传算法不遵循任何概率分布,它来源于“适者生存”的进化过程。它首先将问题的可能解以某种形式编码,编码后的解称为染色体。随机选取n条染色体作为初始种群,然后根据预定的评价函数计算每条染色体的适应度值。性能较好的染色体具有较高的适应值。选择适应度值较高的染色体进行复制,通过遗传算子产生一组对环境适应性较好的新染色体,形成新的种群,直到最终收敛到一个对环境适应性最好的个体,获得问题的最优解。

5.决策图表

决策树的目标是将数据逐步分类到不同的组或分支,并在因变量的值上建立最强的划分。因为分类规则直观,所以容易理解。图1是客户响应的决策树,从中很容易识别出响应率最高的群体。

三、案例分析

下面以logistic回归方法建立信用卡申请评分模型为例,说明数据挖掘技术在信用卡业务中的应用。应用评分模型的设计可以分为七个基本步骤。

1.定义好客户和坏客户的标准

好顾客和坏顾客的标准是根据适合管理的需要来界定的。根据国外经验,建立风险模型预测客户质量,至少要有1000个好坏样本。为了规避风险,考虑到信用卡市场起步阶段,银行的主要收益来源是卖家佣金、信用卡利息、手续费收入和资金的运营利差。因此,一般银行将降低客户逾期率作为主要管理目标。比如将不良客户定义为逾期60天以上的客户;将不良客户定义为逾期60天以上的客户;好客户定义为逾期不超过30天且目前未逾期的客户。

一般来说,在同一个样本空间中,好客户的数量远远大于坏客户的数量。为了保证模型具有较高的识别不良客户的能力,好客户和坏客户的样本数比例为1: 1。

2.确定样本空间

样本空间的确定要考虑样本是否具有代表性。一个客户是好客户,说明持卡人在一个观察期内用卡表现良好;只要客户有“不良”记录,就被认定为不良客户。所以好客户的观察期一般比坏客户长,好客户和坏客户可以选择不同的时间段,也就是不同的样本空间。例如,好客户的样本空间是2003年6月至2003年2月的申请人,坏客户的样本空间是2003年6月至2004年5月的申请人,这样既能保证好客户较长的履约期,又能保证足够数量的坏客户。当然,抽样的好坏客户要有代表性。

3.数据源

在美国,有一个统一的征信局对个人信用进行评分,通常称为“FICO评分”。美国的银行、信用卡公司和金融机构在分析客户的信用风险时,可以使用征信机构报告个人数据。在我国,由于征信系统不完善,建模数据主要来源于申请表。随着我国国家征信体系的逐步完善,可以从征信机构收集一些用于未来建模的数据。

4.数据整理

大量的采样数据如果最后真的进入模型,就必须整理出来。在数据处理中,要注意检查数据的逻辑,区分“缺失数据”和“0”,根据逻辑推断一些值,寻找异常数据,评估其真假。通过计算最小值、最大值和平均值,可以初步验证抽样数据是否具有随机性和代表性。

5.变量选择

变量的选择既要有数理统计的正确性,又要有信用卡实际业务的解释力。Logistic回归法是寻找能尽可能准确预测因变量的自变量,并赋予其一定的权重。如果自变量个数过少,拟合效果不好,不能很好地预测因变量;自变量太多会形成过拟合,预测因变量的效果也不好。所以要减少一些自变量,比如用虚拟变量来表示无法量化的变量,用单变量和决策树分析来筛选变量。与因变量几乎相关的自变量可以归为一类,比如地区对不良客户概率的影响。假设广东省和福建省与不良客户的相关性分别为-0.381和-0.380,这两个地区可以归为一类。此外,还可以根据申请表上的信息构造一些自变量,比如将申请表上的“婚姻状况”和“抚养子女”这两个词组合起来,根据经验和常识进行组合。

6.模型结构

借助SAS9软件,采用逐步回归法对变量进行筛选。这里设计了一个算法,分为六个步骤。

步骤1:求多元相关矩阵(如果是哑变量,> 0.5为相对相关;如果是一般变量,> 0.7-0.8比较相关)。

第二步:旋转主成分分析(一般变量要求> 0.8相对相关;虚拟变量需求> 0.6-0.7相对相关)。

第三步:分别在第一主成分和第二主成分中找到15个变量和***30个变量。

第四步:计算所有30个变量的好/坏相关性,找出相关性大的变量,加到第三步得到的变量上。

第五步:计算VIF。如果VIF值较大,在步骤1查相关矩阵,分别分析这两个变量对模型的影响,剔除相关性较小的一个。

第六步:循环第四步和第五步,直到找到所有变量,多元相关矩阵高度相关,单个变量对模型贡献很大。

7.模型验证

在收集数据时,将所有排序后的数据分为用于建立模型的建模样本和用于模型验证的控制样本。控制样本用于验证模型的整体可预测性和稳定性。应用评分模型的模型测试指标包括K-S值、ROC、AR等指标。虽然受到数据不干净等客观因素的影响,但本案评分模型的K-S值已经超过0.4,达到可用水平。

四、数据挖掘在国内信用卡市场的发展前景

在国外,信用卡业务信息化程度较高,数据库中预留了大量资源。利用数据技术建立的各种模型已经在信用卡业务中成功实施。目前,国内信用卡发卡银行首先利用数据挖掘建立申请评分模型。作为信用卡业务应用的第一步,很多信用卡发卡银行都利用自己的历史数据建立了定制化的应用评分模型。总的来说,数据挖掘在中国信用卡业务中的应用是在数据质量问题上,很难建立商业模式。

由于国内发卡银行已经建立或开始建立数据仓库,来自不同操作源的数据都存储在一个集中的环境中,并进行适当的清理和转换。这为数据挖掘提供了一个良好的操作平台,并将为数据挖掘带来各种便利和功能。中国人民银行的个人信用信息系统也已启动,形成了全国范围内集中的个人信用数据。基于内外部环境的不断改善,数据挖掘技术在信用卡业务中将会有越来越广阔的应用前景。