交易欺诈一般是指第三方欺诈,即所发生的交易非持卡人本人意愿的交易。通常是不法分子利用各种渠道窃取卡信息,进行伪造卡作案。
第三方交易欺诈的特点:使用他卡;在最短时间内大量用卡;一定以获利为目的;一般有区域集中性。交易反欺诈模型的特点和难点:海量数据计算、小概率事件、欺诈模式变化快、数据一般是割裂的。
以上方法建立的前提都是欺诈分子可以盗用客户信息,也可以伪造客户卡片,但是无法复制客户的交易行为模式。因此客户交易行为特征档案是以上规则建立的基础。档案要求:客户投资行为和交易模式从各个维度刻画客户的行为;随交易活动实时更新;每个客户需有唯一档案。
风控组合规则一般是通过业务经验及对历史风险事件的总结形成的反欺诈规则,可以理解为多维组合分析,一般需根据业务成本、对风险的容忍度设置关键变量的阈值。
网络一般包含三或更多层,其至少包含的有输入层、隐含层及输出层。 比如输入信息可能为:输入变量1交易金额、输入变量2交易时间、输入变量3产品类型、输入变量4用户年龄、输入变量4近一周交易特定类型失败交易失败笔数、本次金额与历史N次最大交易金额相比、是否历史常用设备等。 输出信息为交易评分。可以发现神经网络中间是个黑箱,它的缺点为业务解释困难,这要求特征工程提取有较高质量。
建模流程:
详细说明建模过程如下:
对非欺诈账户,其所有交易即为非欺诈性交易。欺诈账户在第一次欺诈日之前的正常交易只为欺诈账户建立档案,但这些正常交易本身并不作为非欺诈性交易进入建模样本。 变量设计:包括原始变量和衍生变量两种。
原始变量:一般只用当前交易的信息,如交易金额、产品类型、交易类型、交易渠道、设备号、交易时间等;拿到原始变量,可先进行缺失值和极端值的处理;再对这些基本交易信息进行探索性分析;对产生的非连续性变量进行相应的WOE(weight of evidence)处理或根据卡方检验处理;连续型变量进行变量压缩等。
衍生变量:通过对账户交易历史的跟踪,可以提炼账户的交易行为模式,这就是每个账户的档案。如果当前的交易与该账户的历史行为模式差别较大,则欺诈的可能性也较大。通俗的说,档案是该帐号的消费行为的标准答案。要判断当前的这笔是否交易欺诈,则需要将当前的交易信息与这个档案(标准答案)进行对比,相差越大则欺诈的概率越大。 其中有 以时间为基础的衍生变量: 过去10分钟,30分钟,1小时,2小时…半天,1天,2天…1周…1月等时间段交易的次数或平均金额;当前交易金额与过去若干时间段的交易金额的均值和标准差的对比等等; 以事件为基础的衍生变量: 账户设备号是否为常用设备;账户敏感信息有没有发生过修改;账户历史失败交易占比等;过去过去2次,3次…10次…N次交易的平均金额;过去2次,3次…10次…N次交易的最大金额;当前交易金额与过去若干次的交易金额的均值,标准差和最大值的对比等等。(衍生变量一般是历史数据的汇聚,从客户档案中提取)。 数据处理注意点:WOE代替(分类型变量定量化);时间可划分为7*24小时建立二维向量。通过这些复杂的变量,可以捕捉到每个账户的历史行为模式,当前交易行为与历史行为模式的差距,交易发生的速率和动态等等。产生上述变量需要一定时间的交易历史(6—12月),涉及的交易量庞大,每笔交易的数据量也不小,如何有效地保存,清理,加工这些数据并在此基础上快速计算所需变量是一个技术关键。一般这步之后,有较多的变量,那接下的工作就是变量选择。 变量选择:由于建模需要构建出大量的变量,有些变量预测能力强,有些变量预测能力弱,不筛选会影响效率。此外,变量的子集很可能高度相关,造成“过拟和”,模型的准确性和可靠性将受到损害。 以神经网络模型为例,神经网络BP算法训练过程中,不能自动筛选变量(回归可以,有向前、向后等)。为了找到一组预测能力强、变量之间的相关性弱的变量,不影响模型准确性,增加模型稳定性。变量筛选的方法主要如下:单变量预测能力筛选:灵敏度分析、变量相关性检查。一般而言,交易反欺诈模型需要输入变量数远多于信用评分模型。
案例见来源
来源:http://www.cda.cn/view/16087.html