
机器学习
Python玩转机器学习!
写代码的阿呆
每天保持进步就是最大的进步!
展开
-
机器学习 | 线性判别分析LDA和主成分分析PCA
LDA的两种含义1 背景2 线性判别分析LDA3 主成分分析PCA4 LDA和PCA有什么区别和联系?1 背景聊到LDA,大部分可能都会想到是线性判别分析,甚至在面试的时候,我简历上明明写的是LDA主题模型,但面试官其实不太懂,直接就问了线性判别分析。。。所以今天我们就来聊一聊线性判别分析LDA以及和其很相近的PCA!2 线性判别分析LDA3 主成分分析PCA4 LDA和PCA有什么区别...原创 2019-05-12 23:22:48 · 1689 阅读 · 0 评论 -
机器学习 | 聚类-1
聚类方法以及实现1 聚类方法概览1.1 层次聚类1.2 K-means聚类1.3 基于密度的DBSCAN聚类1.4 聚类效果评估1.4.1 Silhouette Coefficient1.4.2 Adjusted Rand index1.5 练习2 保持原始变量分布进行聚类2.1 读入数据2.2 相关性矩阵2.3 看变量的分布2.4 中心标准化进行预处理2.5 评估模型效果2.5.1 评估方法1-...原创 2019-05-27 00:34:15 · 1728 阅读 · 0 评论 -
分类问题 | 评价指标
评价指标的补充1 前言2 数据及模型的准备2.1 读入数据2.2 切分训练集测试集2.3 模型预测3 绘制ROC曲线3.1 什么是ROC曲线?如何绘制的?3.2 Python代码绘制ROC曲线3.3 封装函数绘制ROC曲线4 计算AUC的两种方式4.1 什么是AUC?4.2 直接使用封装好的API4.3 使用定义5 PR曲线5.1 什么是PR曲线5.2 PR曲线和ROC曲线的对比5.3 Pytho...原创 2019-05-27 00:13:38 · 1125 阅读 · 0 评论 -
机器学习 | 调参 Part2
贝叶斯调参1 贝叶斯调参思想1.1 什么是贝叶斯调参?1.2 和前两种调参方式的区别2 贝叶斯调参原理3 Python实现3.1 数据准备3.2 建模调参3.2.1 基准线模型3.2.2 Hyperopt 调参3.2.3 目标函数3.2.4 定义超参数空间3.2.5 优化算法3.2.6 过程记录3.2.7 优化结果4 参考关于调参,前面已经完成了一篇,重点介绍了网格搜索和随机搜索,详情见:机器学...原创 2019-05-24 17:57:54 · 1189 阅读 · 0 评论 -
机器学习 | 调参 Part1
调参系列11 什么叫调参?2 为什么要调参3 调参方法有哪些?3.1 网格搜索3.1.1 原理3.1.2 Python实现3.2 随机搜索3.2.1 原理3.2.2 Python实现3.3 贝叶斯调参3.3.1 区别于前两种方法的点3.3.2 原理3.3.3 Python实现4 参考1 什么叫调参?调参即对模型的参数进行相应的调整,以期获得更好的预测效果!其中参数又分为:模型参数和模型超参数...原创 2019-05-22 18:48:06 · 4308 阅读 · 0 评论 -
机器学习 | 交叉验证
什么是交叉验证?1 什么是交叉验证?1.1 思想1.2 疑问2 为什么要交叉验证?3 Python实现交叉验证3.1 简单交叉验证3.2 S折交叉验证3.3 留一交叉验证4 参考1 什么是交叉验证?1.1 思想基本思想:将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。交叉验证是一种模型选择的方法!(引自李航统计学习方法)可以分为以下三种...原创 2019-05-19 23:52:31 · 4410 阅读 · 0 评论 -
机器学习 | 样本不平衡问题处理方法
如何解决样本不平衡问题?2 样本不平衡问题的处理方式2.1 场景2.2 对训练集还是测试集用?还是全量用?2.3 处理方法有哪些?待补充!2 样本不平衡问题的处理方式2.1 场景最近刚好做的项目是一个二分类问题,全量数据中正负样本比超过了5:1,一般认为超过4:1则是样本不平衡,因此需要进行处理。2.2 对训练集还是测试集用?还是全量用?仅针对训练集进行样本不平衡问题的处理,测试集不用...原创 2019-05-19 22:58:37 · 3992 阅读 · 2 评论 -
机器学习 | 评价指标
如何评判模型的优劣?1 背景2 评价指标有哪些?3 Python如何实现?计算AUC的两种方法4 参考1 背景做完一个模型之后,无论是回归还是分类,均需要去评判这个模型的优劣!如何去判断呢?在统计上有很多指标去进行衡量,而且不同的场景下应用的指标也会有一些差异!下面就和小编的视角来一探究竟吧!2 评价指标有哪些?分类问题评价指标:准确率(Accuracy)斜对角线元素之和除以总数。...原创 2019-05-18 00:24:29 · 894 阅读 · 0 评论 -
机器学习 | GBDT再理解
GBDT原理再理解1 背景2 再理解GBDT2.1 算法原理2.2 文字版2.3 图解3 GBDT核心4 参考1 背景今天写了一篇关于基于树模型的集成学习中特征重要性的计算原理,见 机器学习 | 特征重要性判断 其中有一篇介绍GBDT的博文中,介绍了具体的例子来讲解GBDT,一开始不太理解,后来和同学讨论之后逐步了解了,记录一下!2 再理解GBDT2.1 算法原理首先上GBDT的数学原理...原创 2019-05-16 16:18:10 · 560 阅读 · 0 评论 -
机器学习 | AHP层次分析法
聊聊AHP层次分析法1 什么是AHP层次分析法?2 这个方法是干吗呢?在什么场景使用?3 AHP层次分析法的实现3.1 步骤3.2 实际的例子3.2.1 背景3.2.2 Step1 构建层次结构模型3.2.3 Step2 构造成对比较矩阵3.2.4 Step3 一致性检验3.2.5 Step4 确定权重和最优方案3.3 Python实现3.3.1 直接将打分ok的excel表格读入并进行一致性检验...原创 2019-05-15 20:39:47 · 8310 阅读 · 7 评论 -
机器学习 | 特征重要性判断
聊聊feature_importances_1 背景2 原理3 Python实现3.1 解决mac下用jupyter绘图不显示中文的问题3.2 一个神奇的函数:np.argsort1 背景在运用树模型建模的时候,常用的一个sklearn的子库就是看特征重要性,也就是feature_importances_,下面将从原理和Python代码实现两个角度来聊一聊!2 原理待补充3 Python...原创 2019-05-12 20:34:13 · 15458 阅读 · 0 评论 -
机器学习 | LDA主题模型
LDA主题模型1前言1.1 数据介绍1.2 我们为什么要引入上面的外部数据源?1.3 那我们该怎么去做?2 读入数据3分词处理3.1 先原始分词3.2 引入常见停用词3.3 自定义词典3.4 批量对这批数据进行分词处理4 提取特征4.1 先从数据中提取出高的标签4.1.1 单个实验4.1.2 封装函数4.2 提取用户年龄4.3 提取小孩年龄4.4 提取性别5 思路1:使用两种关键词提取方法5.1 ...原创 2019-04-22 17:46:58 · 3270 阅读 · 5 评论 -
机器学习 | 集成学习
集成学习1 面试遇到的问题1.1 GBDT XGBoost LightGBM 三者有什么区别?1.1.1 GBDT VS XGBoost1.1.2 XGBoost VS LightGBM1.2 bagging和boosting有什么区别?1.3 Adaboost每次样本权重的调整体现在哪?1.4 随机森林的随机体现在哪?1.5 为什么随机森林的树深度往往大于 GBDT 的树深度?1.6 谈一谈XG...原创 2019-04-15 23:27:45 · 3399 阅读 · 0 评论 -
机器学习 | 决策树面试点+三种算法手动实现+Sklearn实现+ROC曲线+网格搜索
决策树系列知识点1 决策树面试遇到过的问题1.1 为什么决策树会过拟合?1.2 说一说CART树?1.2.1 上面延伸1-说一下最小二乘回归树法的原理?1.2.2 上面延伸2-说一下CART分类的原理?1.2.3 上面延伸3-说一下cart剪枝和普通的剪枝的区别?1.3 比较一下树模型的ID3 C4.5 CART?1.4 剪枝分为哪两种?有什么区别?平常用哪种剪枝比较多?为什么?1.5 什么叫信息...原创 2019-04-07 07:21:10 · 3441 阅读 · 6 评论 -
机器学习 | 逻辑回归面试点+三种优化算法手动实现+Sklearn实现+ROC曲线
目录1 逻辑回归面试常考点1.1 简单介绍1.2 假设1.3 损失函数1.4 逻辑回归的求解方法1.4.1 批梯度下降1.4.2 随机梯度下降(SGD)1.4.3 小批量梯度下降(MGBD)1.5 逻...原创 2019-03-24 17:01:47 · 4466 阅读 · 0 评论