- 博客(11)
- 资源 (3)
- 收藏
- 关注

原创 2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)
1.竞赛背景近年来,通过拨打电话、群发短信实施诈骗的违法行为一直困扰着手机用户,给移动手机用户造成了困扰甚至金钱的损失,如何有效防护诈骗电话对用户隐私、财产造成的威胁,成为公安急需解决的问题,也是四川移动提升用户满意度、保护用户权益需要高度关注的问题。 通过诈骗电话号码的通信行为,识别诈骗电话,及时关停诈骗号码,成为运营商与公安部门合作的持续的工作,虽取得一定成绩,但诈骗方式的不断翻新,给诈骗电话的准确识别带来了持续算法挑战。2.任务基于用户通信行为数据的诈骗电话识别,将针对诈...
2020-06-09 15:28:06
6537
15

原创 2020首届数字四川创新大赛_诈骗电话识别baseline0.76+
偶然参加了诈骗电话识别这个比赛项目,分享一个线上0.76+的baseline,本次只用了一个基础表,lgb算法采用默认参数,并采用八折取最大的方法,后期如果有时间的话就把分析过程分析出来,欢迎捧场。import warningsimport pandas as pdimport numpy as npimport lightgbm as lgbfrom statsmodels.tsa.ar_model import ARfrom sklearn.model_selection import K
2020-06-01 21:51:14
3758
3

原创 数据挖掘之异常点检测
iForest (Isolation Forest)孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法(详见新版教材“Outlier Analysis”第5和第6章PDF)。其可以用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。本文将通俗解释实现方法和日常运用,即无需深厚的
2018-01-31 18:37:49
8788
原创 RF、GBDT、XGBOOST常见面试算法整理
1、RF与GBDT之间的区别相同点都是由多棵树组成最终的结果都是由对棵树一起决定不同点组成随机森林的数可是分类树也可以是回归树,而GBDT只由回归树组成组成随机森林的数可是并行生成,而GBDT只能是串行生成随机森林的结果是多棵树表决决定,而GBDT则是多棵树累加之和随机森林对异常值不敏感,而GBDT对异常值比较敏感随机森林是通过减少模型的方差来提高性能,而GBDT是减少模型的偏差来提高性能随机森林...
2018-07-09 10:19:34
7595
原创 数据挖掘常见面试题
机器学习方面:SVM1、支撑平面-和支持向量交互的平面,分割平面---支持平面中间面也就是最优分类平面2、SVM不是定义损失,而是定义支持向量之间的距离目标函数3、正则化参数对支持向量数的影响LR1、LR的形式:h(x)=g(f(x)) 其中x为原数据,f(x)为线性/非线性回归得到的值,也叫判定边界 g()为Sigmod函数,最终h(x)输出的范围为(0,1)
2018-02-02 09:27:48
18949
原创 随机森林的优缺点
网上有很多关于随机森林优缺点的总结,但是都只是抄来抄去,并没有对这些优缺点作说明,导致有些看不懂。本人根据自己的理解,对某些优缺点做一下说明,如果理解有不对的地方,欢迎大家指正。随机森林是一个用随机方式建立的,包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。随机性主要体现在两个方面:(1)训练每棵树时,从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的
2018-02-02 08:09:28
21610
3
原创 为什么会产生过拟合,有哪些方法可以预防或克服过拟合
为什么会产生过拟合,有哪些方法可以预防或克服过拟合?什么是过拟合:所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。过拟合产生的原因:出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。预防或克服措施:
2018-02-02 08:02:00
4125
原创 随机森林进行特征选取
在随机森林中某个特征x的重要性的计算方式如下:首先是对随机森林的每一颗决策树,使用对应的OOB(袋外数据)数据来进行计算他的袋外的数据误差,记做error1这样每个决策树都可以得到一个error1,K颗数就有K个error1.然后就是要遍历所有的特征,来考察该特征的重要性,考察重要性的方式是,随机的对袋外的数据OOB所有样本的特征x加入噪声干扰,考察(可以理解为随机得改变样本在特征x处
2018-02-01 18:55:39
7994
原创 箱形图-快速识别离群值
解决离群值得方法有很多简单来说一下--箱形图-箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗想要搞懂箱形图,那么一定要了解...五大
2018-01-31 19:35:11
32611
2
原创 最小二乘法详细介绍
1.最小二乘的背景wiki百科: 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。
2018-01-31 19:15:55
3828
1
原创 机器学习算法整理(内含代码)
一般来说,机器学习有三种算法:1.监督式学习 监督式学习算法包括一个目标变量(也就是因变量)和用来预测目标变量的预测变量(相当于自变量).通过这些变量,我们可以搭建一个模型,从而对于一个自变量,我们可以得到对应的因变量.重复训练这个模型,直到它能在训练数据集上达到理想的准确率属于监督式学习的算法有:回归模型,决策树,随机森林,K近邻算法,逻辑回归等算法2.无监督式算法无监督式学
2018-01-26 20:36:31
39453
6
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人