编者按:大数据和机器学习是近年来快速增长的热门领域,各个领域的数据量和数据规模都以惊人的速度增长。本文是近期举行的架构实践日点融网刘利就“机器学习平台在点融网业务的应用介绍”这一话题的精彩分享。
作者简介:
刘利,点融网 Data Scientist Team 负责人,从事互联网数据分析和数据挖掘近十年。现任点融网 Data Scientist Team 负责人。曾负责携程网信息安全部数据团队。长期专注于互联网风控领域,尤其是电商行业和 Fin Tech 行业反欺诈分析建模和消费者信用评级。一直致力于用大数据的技术手段解决互联网行业中的信息安全和风险管理中的难题。
分享模块
点融机器学习平台
风控业务案例分析
如何提升模型性能
本次演讲主要分三大块,第一块是我们在点融做的一个机器学习平台或者说框架,第二块是在我们在做风控业务的一些案例分析,第三块是在建模时的一些经验分享。
点融机器学习平台
一、机器学习一般流程
图 1
机器学习的一般流程是,我们先有一个数据集,拿到这个数据集之后会作一个拆分,拆成一个 (X train, Y train)、(X test, Y test)。然后会根据训练集的特征作一个预处理。处理过程可能会包括比如缺失值的处理、相关性分析、分布情况的考察等。接下来是对这些特征作重要性和区分度的分析,看到底哪些特征是最关键而且对目标变量最有区分效果。再之后会做 Model Selector,去尝试用一些算法,看看哪些算法能达到我们期望的效果。
我们知道每一个算法都有外在输入的参数,这些参数跟它本身的算法的设计有关,可以根据我们积累的经验调优参数,尝试到底哪种组合能达到最好的效果,通过对 Hyper-parameter 做调优的选择后,终于得到了你想要的 Best Model。机器学习大致的流程就是这样。
二、已有的解决方案
痛点:
收费
数据安全
数据可视化
分布式
模型结果部署
第一个是收费的问题。收费可能是按照 license 收费,也可能是按它的配套方案收费,比如它是部署到云端的,或者是在公司本身做本地化的部署,但这些收费一般来说都不便宜。
第二个是数据安全的问题。如果是云端的部署,也就是说意味着需要你把数据上传到云端。云端对很多互联网公司,尤其是非常看重数据安全和质量的互联网公司是非常不情愿的事情。这意味着数据要上传出去,即使经过了层层加密,也依然不能彻底解决数据安全的问题。
第三个是数据可视化的问题。很多开源的机器学习的工具在数据可视化这块没有提供足够强大的功能。你可能借助其他开源的可视化工具自己去操作,但这意味着你需要在不同的工具之间来回切换。还有一些工具本身并不支持分布式,只能在单机上跑。很大程度上取决于你的服务器内存的大小能够 handle 多大的数据集。
最后是模型部署。经历完一个繁琐的流程之后,终于得到了我们想要的模型。不过怎么把它部署到生产线上,很多工具在设计上并没有很好的考虑这个场景。