数据分析在交易欺诈领域的应用

xiaoxiao2021-02-28 46

交易欺诈简介

交易欺诈一般是指第三方欺诈，即所发生的交易非持卡人本人意愿的交易。通常是不法分子利用各种渠道窃取卡信息，进行伪造卡作案。

第三方交易欺诈的特点：使用他卡；在最短时间内大量用卡；一定以获利为目的；一般有区域集中性。交易反欺诈模型的特点和难点：海量数据计算、小概率事件、欺诈模式变化快、数据一般是割裂的。

交易欺诈风控技术

交易识别方法，主要有风控规则引擎、异常检测、机器学习方法等。

以上方法建立的前提都是欺诈分子可以盗用客户信息，也可以伪造客户卡片，但是无法复制客户的交易行为模式。因此客户交易行为特征档案是以上规则建立的基础。档案要求：客户投资行为和交易模式从各个维度刻画客户的行为；随交易活动实时更新；每个客户需有唯一档案。

异常可疑交易检测

异常值模型是用于从大量数据构成的样本群体中识别出与该群体有显著差异或者异常情况的样本的过程。在反欺诈领域，欺诈交易和正常交易有显著差异，可以用异常模型进行补充，一般是以距离为测量尺度，把样本关键信息标准化为可测信息，进行聚类，聚类中样本较小的簇确定是否为异常样本，常用在探索性分析阶段。异常样本与统计学中的离群值概念相似。

风控规则引擎

风控组合规则一般是通过业务经验及对历史风险事件的总结形成的反欺诈规则，可以理解为多维组合分析，一般需根据业务成本、对风险的容忍度设置关键变量的阈值。

机器学习的方法

常用的分类算法都可以应用在此类场景中，比如：神经网络、贝叶斯方法、决策树、支持向量机等。不同于一般分类问题的是：“欺诈”这种异常模式（类别）的占比可能非常小（不超过5%，一般低于1%），为保证训练和测试样本中包含一定数量的此异常模式记录，在准备数据时可能需要分层抽样。不同于信用评分模型（使用logistic回归较多），在反欺诈领域，普遍使用神经网络模型技术，该技术模拟人脑功能的基本特征，适合处理需同时考虑许多因素和条件的非线性问题。神经网络模型具有识别率高、稳定性强且易于系统落地实施等优点。

网络一般包含三或更多层，其至少包含的有输入层、隐含层及输出层。比如输入信息可能为：输入变量1交易金额、输入变量2交易时间、输入变量3产品类型、输入变量4用户年龄、输入变量4近一周交易特定类型失败交易失败笔数、本次金额与历史N次最大交易金额相比、是否历史常用设备等。输出信息为交易评分。可以发现神经网络中间是个黑箱，它的缺点为业务解释困难，这要求特征工程提取有较高质量。

神经网络建模过程及注意事项

建模流程：

详细说明建模过程如下：

数据准备方面

一般需考虑现有的数据仓库或数据集市系统或交易系统、存在于其他外部的数据等。需充分考虑现有数据结构如何、是否具备该数据、当前数据信息量是否足够、坏样本是否足够建模等等，总之，做好数据准备是影响问题解决效率的重要前提。举例一般的欺诈交易模型所需数据可能包括：交易信息：账户、金额、日期、时间、币种、渠道、商户、产品信息等；欺诈记录：是或者否；其他信息：用户IP、账户、设备等。

特征工程方面

目标定义：将欺诈数据与交易数据相匹配，欺诈账户在欺诈窗口（第一次欺诈日到被发现之日）之间的所有交易即为欺诈性交易；

对非欺诈账户，其所有交易即为非欺诈性交易。欺诈账户在第一次欺诈日之前的正常交易只为欺诈账户建立档案，但这些正常交易本身并不作为非欺诈性交易进入建模样本。变量设计：包括原始变量和衍生变量两种。

原始变量：一般只用当前交易的信息，如交易金额、产品类型、交易类型、交易渠道、设备号、交易时间等；拿到原始变量，可先进行缺失值和极端值的处理；再对这些基本交易信息进行探索性分析；对产生的非连续性变量进行相应的WOE（weight of evidence）处理或根据卡方检验处理；连续型变量进行变量压缩等。

衍生变量：通过对账户交易历史的跟踪，可以提炼账户的交易行为模式，这就是每个账户的档案。如果当前的交易与该账户的历史行为模式差别较大，则欺诈的可能性也较大。通俗的说，档案是该帐号的消费行为的标准答案。要判断当前的这笔是否交易欺诈，则需要将当前的交易信息与这个档案（标准答案）进行对比，相差越大则欺诈的概率越大。其中有以时间为基础的衍生变量：过去10分钟，30分钟，1小时，2小时…半天，1天，2天…1周…1月等时间段交易的次数或平均金额；当前交易金额与过去若干时间段的交易金额的均值和标准差的对比等等；以事件为基础的衍生变量：账户设备号是否为常用设备；账户敏感信息有没有发生过修改；账户历史失败交易占比等；过去过去2次，3次…10次…N次交易的平均金额；过去2次，3次…10次…N次交易的最大金额；当前交易金额与过去若干次的交易金额的均值，标准差和最大值的对比等等。（衍生变量一般是历史数据的汇聚，从客户档案中提取）。数据处理注意点：WOE代替（分类型变量定量化）；时间可划分为7*24小时建立二维向量。通过这些复杂的变量，可以捕捉到每个账户的历史行为模式，当前交易行为与历史行为模式的差距，交易发生的速率和动态等等。产生上述变量需要一定时间的交易历史（6—12月），涉及的交易量庞大，每笔交易的数据量也不小，如何有效地保存，清理，加工这些数据并在此基础上快速计算所需变量是一个技术关键。一般这步之后，有较多的变量，那接下的工作就是变量选择。变量选择：由于建模需要构建出大量的变量，有些变量预测能力强，有些变量预测能力弱，不筛选会影响效率。此外，变量的子集很可能高度相关，造成“过拟和”，模型的准确性和可靠性将受到损害。以神经网络模型为例，神经网络BP算法训练过程中，不能自动筛选变量（回归可以，有向前、向后等）。为了找到一组预测能力强、变量之间的相关性弱的变量，不影响模型准确性，增加模型稳定性。变量筛选的方法主要如下：单变量预测能力筛选：灵敏度分析、变量相关性检查。一般而言，交易反欺诈模型需要输入变量数远多于信用评分模型。

模型训练

按以下步骤训练神经网络模型，直至模型效果最佳。 1、对所有设计产生的自变量先进行初步筛选，排除明显无预测能力的变量，剩余变量在神经网络模型训练过程中再进行精选。 2、根据输入变量的数目，设计合理的网络结构和隐节点数。--关键。一般交易欺诈模型有上百个变量，一层隐含层，十几个隐含节点。 3、根据设计好的网络结构，选取合适的训练参数和收敛条件，在上述第一步数据进一步划分后的纯训练数据上训练模型，在测试数据上测试模型效果。 4、在有了初步训练好的神经网络模型后，可用灵敏度分析等手段进一步筛选变量。 5、对每个分段（segment），步骤3到步骤5都要重复多次，调整输入变量，调整隐节点数，调整训练参数，最后选出一个在测试数据上表现最好的模型作为该分段的最终模型。相对逻辑回归来说，神经网络的训练更加于经验，如何设计网络结构、各个参数大小等很重要。

模型验证及评估

交易验证及精准率和召回率评估（见案例部分介绍）。交易反欺诈策略：策略的目标是最大限额地降低欺诈损失额，而预期欺诈损失额等于欺诈概率乘以交易额。由于反欺诈模型的评分反映了欺诈的概率，所以欺诈评分和交易额是反欺诈策略的主要依据，辅之以产品种类、交易区域、交易方式等。策略简介：对欺诈风险较高的交易利用事后短信、电话联系、信件联系或电子邮件联系的方式，与用户在交易外进行沟通，核对可疑交易，如果证实某账号正在经历欺诈性交易（如用户证实某可疑交易非其所为），则立刻拒绝用户的所有后续交易并给重新建立账户等措施。这些反欺诈措施可以作为对实时交易授权决策的有效补充。当然，策略是要讲究平衡的艺术，核对交易是存在成本的，这就需要在成本和挽回损失间找到平衡点。而策略最终目标应该是：在电话核对和拒绝的交易量不超过资源负载的前提下最大限度发现和阻断欺诈交易、最小限度地影响真实交易。

案例见来源

来源：http://www.cda.cn/view/16087.html

转载请注明原文地址: https://www.6miu.com/read-1100202.html

技术

最新回复(0)