关键词:
移动支付
欺诈识别
机器学习
逻辑回归
神经网络
XGBoost
摘要:
互联网、大数据等新兴技术已经在中国的大地上蓬勃发展了很多年,拥有快捷、便利等优势的电子商务系统雨后春笋般涌现,移动支付已然成为人们茶余饭后的谈资,网购、线上交易对现代人来说已经不可或缺。显而易见,便捷的确是互联网金融带来的优点,但同时而来的欺诈问题也需要引起高度警惕。《中国互联网络发展状况统计报告》揭示出的数据真是触目惊心!2020年,超过20%的互联网用户的信息被走漏,多达10%的网民碰到木马病毒的攻击,账号、密码被窃取的用户占比将近8%,逾15%的用户已经成为网络电信诈骗的目标。为了躲避网络安全部门的监控,不法分子一般会利用多类软、硬件进行作弊,捏造子虚乌有的身份信息进而欺诈攫取利润,目前已经构成一条完整的欺诈犯罪产业链。这条产业链行动迅速、协同多边,对互联网金融业务的浸透简直无孔不入,每年涉及的犯罪金额数超过千亿元。鉴于应用场景众多,移动支付是互联网金融举足轻重的组成部分,如影随形的是与此有关的安全问题。相关黑产从业者无所不用其极,利用采取包括伪造Wi-Fi、散布木马病毒以及山寨手机软件等在内的一系列恶劣行径,非法获取了用户的姓名、身份证号、手机号、住址等隐私,进而实施欺诈变现,令人防不胜防。可想而知这威胁的主体不仅是千千万万的个人用户,更挑战了整个互联网金融、电商体系的安全性,对整个经济社会产生不利后果。互联网金融业务在持续发展壮大,更理当重视与之有关的风险,提前防范。因此目前最紧要的是运用先进的大数据处理技术,构建细致、高效、广泛的智控模型,结合定性、定量分析方法精确甄别欺诈风险,获得事半功倍的效果。本文首先整理参考了目前现有的国内外关于识别移动支付欺诈风险的方法以及机器学习方面的文献,经过深入细致的研究发现:移动互联网、大数据等信息科学技术与日俱进,移动支付技术日新月异,趋近完善、成熟。目前,拥有着管理方便,隐私性强,空间、时间限制性小,综合性强这四大特点的移动支付,已经深入到了人们生活中的各个角落,并在世界各地疾速扩张。然而利用移动支付的优势进行网上洗钱的欺诈风险接踵而至。为了避免移动支付欺诈而带来的各种社会经济问题,就必须对移动支付确定监督对象、确立监督体系、改进移动支付运行环境、监管往来资金、防止洗钱行为、减少信用风险、强化资金监管等。国内外学者对移动支付及其欺诈风险识别等相关方面做了大量研究。现有研究包含了定性分析法、定量评估法。定性分析法包括专家调查、流程图等;定量评估法包括决策树、支持向量机、贝叶斯网络分类器等,拓展了人们对移动支付欺诈风险甄别的认知。然后本文借助于Kaggle网站(网址:https://***/)的《Synthetic Financial Datasets For Fraud Detection》中所提供的样本进行建模。被称为Pay Sim的模拟器合成了本次的数据集,模拟器使用来自真实数据集的数据生成类似于正常交易操作的合成模拟数据集,并注入欺诈行为,有助于研究者建立反欺诈模型并评估其性能。Pay Sim从来自非洲国家的移动支付服务中提取到一个月交易流水日志,参考以上日志模拟出新的移动支付交易。原始日志由一家跨国公司提供,该公司是移动支付金融服务的供应商,目前在全球14个国家(地区)运营。最后的实证研究阶段,本文建立了行业众所周知的逻辑回归模型,同时以此为准绳,实践了神经网络、XGBoost两个模型的构建,过程中具体介绍了上述三类模型以及相关联的其他算法模型,探索并调节模型的参数以取得最优学习效果。实践中发现:使用原始数据代入模型取得的结果一般,于是依流平进,着眼原始数据特征效果的局限性,采用“多项式扩展、交互项扩展”、“高斯核函数”两种措施对原始数据进行特征工程改进。实验对比了无特征工程和进行了“多项式扩展、交互项扩展”以及“高斯核函数”特征工程后,逻辑回归、神经网络和XGBoost分别在精确率、召回率、误杀率、AUPRC等指标上的性能。末了得出结论:本次研究实践效果一枝独秀的是XGBoost算法,性能上相较其他二者无出其右,可用于移动支付欺诈检测的日常践行。结尾审视了本次研究中的诸多不足之处,并对移动支付反欺诈的前景满怀憧憬。