- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 过拟合
机器学习之过拟合定义其他解决思考定义过拟合:“学习时选择的模型所包含参数过多,复杂度高于真模型,以至于这一模型对已知数据预测很好,但对未知数据预测很差。”----李航《统计学习方法》。把训练样本自身的一些特点(噪声)当作一般性质学习(学过头了)。欠拟合:另一个极端,对训练样本的一般性质尚未学好(学习能力不足)。其他经验误差:也叫训练误差,即训练集上的误差。泛化误差:...
2019-12-02 17:35:01
206
原创 超参数调优
超参数调优模型参数,是使用的模型根据训练数据的分布学习到的参数,不需要人为的设置。超参数,是在模型训练之前设置的参数。通常情况下要对超参数进行优化,选择一组最优超参数,以提高学习的性能和效果。常用的超参数调参的方法有:网格搜索,随机搜索,贝叶斯优化。网格搜索(grid search)使用最广泛的超参数调优方法查找搜索给定范围内的所有的点,来确定最优值。理论上,给定较大范围和较小步长...
2019-12-02 17:34:25
576
原创 特征选择
特征选择特征选择的必要性特征选择方法过滤式(filter)1.方差过滤法2.单变量特征选择2.1 Pearson相关系数2.2 互信息和最大信息系数(MIC)2.3 距离相关系数2.4 IV值包裹式(wrapper)递归特征消除(RFE)嵌入式(embedded)正则化算法权重系数或特征重要性特征选择的必要性效率:大量冗余且不相关的特征会让模型的训练和预测变得异常缓慢;效果:噪声特征降低模...
2019-12-02 17:34:07
442
1
原创 缺失值处理
缺失值的处理方法在数据的生成、采集、传输、存储等过程中不可避免产生缺失数据,有人为失误和非人为的数据中形式为空、NaN、null、-999等这种没有实际业务含义的字符为什么要处理缺失值很多算法不支持空值输入,因此在训练之前需要填充空值空值的地方丢失了有用信息,直接降低数据质量,低质量数据导致模型效果无法满足目标利用缺失值填充技术,可以一定程度复原真实数据,提供价值信息,使模型效果...
2019-12-02 17:33:41
1947
原创 SQL杂谈
drop、truncate、delete的区别1.解释drop:删除表结构及所有数据,并将表所占用的空间全部释放,不会触发触发器,不能回滚。如无备份,谨慎使用。truncate:一次性地从表中删除所有的数据。不会触发触发器,不能回滚。如无备份,谨慎使用。delete:逐行删除,激活删除触发器,可回滚。drop table TABLE_NAME;TRUNCATE table TABL...
2019-12-02 17:29:38
137
原创 反欺诈模型开发总结
反欺诈模型开发难度较高大部分情况下没有标签,无法使用有监督学习算法欺诈定义模糊,即没有明确的界限将欺诈和非欺诈区分开来噪声点和异常点(欺诈点)易混淆,需要区分不了解每种诈骗定义,很难区分不同诈骗类型在有标签的情况下,也很难单纯依靠监督模型,因为欺诈的方式在不断进化,而监督模型只能识别出现过的欺诈行为表面看是二分类,实际是多分类问题(每种欺诈类型为一类)尽管如此,也说明反欺诈和反...
2019-12-02 16:44:36
3705
原创 类别特征的处理方法
1 标签编码(label encoder)from sklearn.preprocessing import LabelEncoderfor col in cols: lbe= LabelEncoder() lbe.fit(pd.concat([train[col],test[col]]).values) train[col] = lbe.transform(train...
2019-11-30 21:55:43
979
原创 支持向量机(SVM)
支持向量机(SVM)关键字:二分类 核函数 软/硬间隔求解能够正确划分训练数据集且几何间隔最大的分离超平面线性可分支持向量机线性可分,硬间隔最大化间隔最大的分离超平面存在且唯一分离超平面,wTxi+b=0w^Tx_i+b=0wTxi+b=0决策函数 sign(wxi+b)sign(wx_i+b)sign(wxi+b)线性支持向量机近似线性可分,软间隔最大化非线性...
2019-11-30 21:51:24
212
原创 决策树可视化-Graphviz
graphviz1.安装配置下载graphviz-2.38.msi并安装。下载地址:https://graphviz.gitlab.io/_pages/Download/Download_windows.html将安装路径"…\Graphviz\bin"添加至环境变量pip install graphviz2.jupyter notebook中使用import graphviz ...
2019-11-30 21:39:45
1247
原创 Matplotlib和Seaborn小技巧
坐标轴和刻度标签隐藏坐标轴,同时刻度标签也被隐藏plt.axis('off')仅隐藏刻度标签plt.xticks([])plt.yticks([])
2019-11-30 21:35:21
476
原创 Django框架MTV模式demo
常用命令# 1.创建django项目django-admin startproject project_name # 2.创建app,app目录下执行,git。django-admin.exe startapp appnamedjango-admin.py startapp appnamepython manage.py startapp appname# 3.为模型的改变生成迁移文...
2019-11-26 11:49:33
264
原创 信用风险评分模型开发流程
1. 前期准备这个阶段主要是确定项目目标,要达到的效果,可以使用的资源,打算运用的方法。确立Y值:消费贷信用评分模型一般以历史M3+为坏客户定义标准,作为正类,用1表示,历史未逾期的好客户为负类,用0表示,其他有逾期但未进入M3+的客户作为灰客户,用0.5表示,统计分布,但不作为建模样本。时间段选取:太久远的数据难以反映最新客户群体的分布变换,太近的数据又没有足够的还款逾期表现,一般选择...
2019-11-22 16:15:24
1205
原创 Spark MLlib学习
《SPARK MLLIB机器学习》_黄美灵spark主要库SparkSQL:SQL或Hive查询数据。Spark Streaming:流数据实时处理,如web日志。MLlib:机器学习库。GraphX:图计算库。目前主要学习使用MLlib和SparkSQL。MLlib算法库1.RDD弹性分布式数据集(Resilient Distributed Dataset)。可...
2019-11-14 15:40:33
358
原创 对数几率回归
概念也叫逻辑回归,一种分类算法。通过sigmoid函数将输出值映射到0-1的范围,代表概率预测。w为特征值的权值,b为偏置。该函数是一条S形的曲线,并且曲线在中心点附近的增长速度较快,在两段的增长速度较慢。w值越大,曲线中心的增长速度越快。Y(x)是一个概率分布函数,因此对于二分类而言,离中心点的距离越远,其属于某一类的可能性就越大。代价函数估计模型参数w和b。给定y值为1时,代...
2019-11-10 13:01:22
381
原创 EDA可视化
1. 文件名 visualization_utils.pyEDA可视化通用方法汇总1.1 连续特征用于连续特征可视化1.1.1 dist_numb_target单个连续特征分布图(二分类),y取值类型需为int型0,11.1.2 ploting_numb_fets多连续特征分布(二分类),参数draw_type:绘图类型,取值:dist_y(按y分布图),dist(分...
2019-11-06 17:41:41
779
1
原创 jupyter notebook中执行R脚本
R官网下载R安装包并安装:R官网关联jupyter notebook# R Console中依次执行如下命令:install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools', 'uuid', 'digest'))devtools::install_github('IRkernel/IR...
2019-10-30 14:50:23
904
原创 python数据科学包
1.pandas1.1 pandas.crosstab求解交叉占比,crosstab比pivot_table更简洁。pivot_table,代码和结果如下:tmp = pd.pivot_table(data=datas,values='loan_no',index='live_build_type',columns='y_m3Worse',aggfunc=len,margins=Tru...
2019-10-29 17:06:06
293
原创 jupyter notebook绘图中文乱码解决
matplotlib中文显示import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号seaborn中文显示matplotlib中文显示设置对seaborn无效,采用如下方式...
2019-10-29 16:05:10
2368
原创 jupyter图表背景色采用jupyterthemes主题色
jupyter notebook执行如下代码:from jupyterthemes import jtplotjtplot.style(grid=False)执行前后效果对比:
2019-10-29 09:47:54
1295
原创 Jupyter Notebook插件工具Nbextensions
1.Nbextensions安装英文文档链接pip install jupyter_contrib_nbextensionsjupyter contrib nbextension install --user # 若未安装成功则执行2.常用插件2.1 Hide input all一键隐藏所有输入2.2 Toggle all line numbers代码单元内显示行序号...
2019-10-28 10:56:26
1849
1
原创 集成学习(Ensemble)算法介绍
Ensemble ModelBagging和Boosting都算是Bootstraping的应用。Bootstraping的概念是对样本每次有放回的抽样,抽样K个,一共抽N次。Bagging:每次从总体样本中随机抽取K个样本来训练模型(有放回),重复N次,得到N个模型(++独立构建++),然后将各个模型结果合并,分类问题投票方式结合,回归则是取平均值,e.g.Random Forest。...
2019-10-25 22:15:54
2658
原创 决策树(Decision Tree)理解及参数介绍
1.算法过程决策树的生成是一个++递归++过程。1.1递归返回叶节点生成过程当前节点样本全属于同一类,无需划分当前属性集为空或者所有样本在所有属性上取值相同,无法划分,并设置为所含样本最多的类别当前节点样本为空,不能划分,并设置为++父节点++所含样本最多类别1.2伪代码定义函数TreeGenerate,输入为样本集D和属性集A;节点node;if D中样本全为同一...
2019-10-25 22:05:30
3384
原创 树模型中的特征重要性(feature_importances_)
Decision Tree该特征带来的标准(信息增益、基尼指数)减少的总和(需要经过标准化). 也被称为基尼重要性.sklearn官网说明原文如下:The importance of a feature is computed as the (normalized) total reduction of the criterion brought by that feature. It...
2019-10-25 17:58:35
12861
原创 git错误问题
1.git add的时候报错fatal: Unable to create : …File exists.原因:已经有add文件存在,无法创建新的add。需要解除锁定释放add。解决方法:git bash 执行命令:rm -f ./.git/index.lock...
2019-10-24 22:24:38
319
原创 jupyter themes设置
jpyter themesgithub介绍安装和升级pip install jupyterthemes pip install --upgrade jupyterthemes 主题设置-t:安装的主题名-f:代码字体类型-fs:代码字体大小-tfs:文本/MD字体大小-ofs:输出区域字体大小-dfs:pandas DF输出字体大小-lineh:行高-cellw:行...
2019-10-18 18:00:45
2443
4
原创 网址及资源收藏
收藏的关于数据科学相关的网站和网址,持续更新~优快云 GitHubKaggleMarkdown在线编辑plotyepub文档在线阅读器数据科学汉化资源社区iBooker英文原版电子书和论文搜索网站Library Genesisleetcodeneo4j教程实验楼慕课网python实验楼练手项目正则表达式配色网Django讲解python包下载pyechart...
2019-10-18 17:11:15
277
原创 Visual Studio Code之Python交互式窗口
VS Code2019年10月8日,python扩展插件更新后增加了交互式窗口功能。新功能使vs code能像jupyter notebook一样的便捷。使其更加适用于数据分析和挖掘的工作。与pycharm相比,更轻量级,反映速度更快。与spyder相比,界面更好看,扩展应用丰富。与Jupyter notebook相比,代码间布局更好。...
2019-10-17 15:44:42
37024
4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人