登录 申请

在线客服

返回顶部

当前位置: 关于我们 > 新闻动态 > 大数据风控面临的挑战有哪些?

大数据风控面临的挑战有哪些?

2019-05-20 来源:壹诺科技

数据风控这几年成了热词,作为金融行业传统风控的重要补充,它的作用不言而喻。但大数据风控的发展也是一个动态的过程,在发展中也需不断完善。现阶段,大数据风控就有眼下几项挑战。


1.数据的噪声

体量庞大的互联网数据是有很多噪声的,即便是已经存在库里的数据,我们也不能保证它有100%的准确性。在这里主要从两个方面说起。第一,目前积累的数据本身有错误,所以这部分错误数据需要纠正。最简单的纠正办法就是做离线的不一致性验证。第二,数据的冗余。比如借款人张三填写公司名字为“普惠”,借款人李四填写的名字为“普惠金融”,借款人王五则填写成“普惠金融服务有限公司”。虽然这三个人都隶属于一家公司,但由于他们填写的名字不同,计算机则会认为他们三个是来自不同的公司。那接下来的问题是,怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术。


2.非结构化数据处理

在大数据时代,很多数据都是未经处理过的非结构化数据,比如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言处理能力提出了更高的门槛。


3.小样本呼求生态闭环

虽然大数据能获取的数据量非常庞大,我们仍然面临着小样本的问题,也就是样本数量少。假设我们要搭建一个基于机器学习的反欺诈评分系统,首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。


在这种小样本条件下,构建有效的生态闭环尤其重要。所谓生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,整个过程都充满着博弈,所以我们需要不断地通过反馈信号来调整我们的策略。

分享到: