
Machine Learning
落木~
这个作者很懒,什么都没留下…
展开
-
神经网络知识点1 - BP反向传播
BP反向传播基本原理利用输出后的误差来估计输出层前一层的误差,再用这个误差估计更前一层的误差,如此一层一层地反传下去,从而获得所有其他各层的误差对网络的连接权重做动态调整核心:梯度下降法推导过程输入层相关变量:下标i隐藏层相关变量:下标h输出层相关变量:下标j激励函数输入为a, 激励函数输出为z, 结点误差为δ预测值是z, 目标值是t【前向传播】ah=∑iwihx...原创 2018-10-06 19:22:41 · 228 阅读 · 0 评论 -
ML - 贷款用户逾期情况分析2 - 特征工程1(数据预处理)
文章目录数据预处理 (判定贷款用户是否逾期)1. 删除无用特征1.1 属性值单一的特征1.2 观测特征取值以及label意义, 是否和预测无关2. 数据处理 - 数值型2.1 缺失值处理2.1.1 中位数填充2.1.2 其他填充缺失值的方法(待补充)2.2 归一化3. 数据处理 - 非数值型3.1 类别特征 - 缺失值处理3.1.1 单独填充为一个类别3.1.2 众数填充3.2 类别特征 - 编码...原创 2018-11-22 20:24:31 · 1142 阅读 · 0 评论 -
ML - 贷款用户逾期情况分析3 - 模型调优
文章目录模型调优 (判定贷款用户是否逾期)1. 数据集划分2. 模型评估3. LR模型4. SVM模型5. 决策树模型6. XGBoost模型7. LightGBM模型遇到的问题ReferenceMore模型调优 (判定贷款用户是否逾期)给定金融数据,预测贷款用户是否会逾期。(status是标签:0表示未逾期,1表示逾期。)Task6(模型调优) - 使用网格搜索对模型进行调优, 并采用五...原创 2018-11-24 17:29:33 · 1574 阅读 · 0 评论 -
ML - 贷款用户逾期情况分析4 - 模型融合之Stacking
文章目录模型融合之Stacking (判定贷款用户是否逾期)1. 理论介绍1.1 系统解释1.2 详细解释2. 代码2.1 调包实现2.2 自己实现遇到的问题Reference模型融合之Stacking (判定贷款用户是否逾期)给定金融数据,预测贷款用户是否会逾期。(status是标签:0表示未逾期,1表示逾期。)Task7(模型融合) - 对Task6调优后的模型, 进行模型融合。例如, ...原创 2018-11-26 20:36:15 · 752 阅读 · 0 评论 -
ML - 贷款用户逾期情况分析5 - 特征工程2(特征选择)
文章目录特征选择 (判定贷款用户是否逾期)1 IV值进行特征选择1.1 用途介绍1.2 计算公式2 随机森林进行特征选择2.1 平均不纯度减少 mean decrease impurity2.2 平均精确率减少 Mean decrease accuracy3 代码3.1 IV值进行特征选择3.2 随机森林挑选特征3.2.1 平均不纯度减少 mean decrease impurity3.2.2 ...原创 2018-11-27 20:55:37 · 2554 阅读 · 0 评论 -
ML - 贷款用户逾期情况分析6 - Final
文章目录思路1. 导入数据2. 性能评估函数3. 模型优化3.1 LR模型3.2 SVM模型3.3 决策树模型3.4 XGBoost模型3.5 LightGBM模型3.6 模型融合4. 结果对比和分析5. 遇到的问题Task9 - 统一数据,数据三七分,随机种子2018,用AUC作为模型评价指标,对比单模型和融合模型的比分。具体代码见Github思路导入原始数据,特征归一化后,调参,然后...原创 2018-12-01 14:03:02 · 865 阅读 · 6 评论 -
Datawhale 算法实践第2期 Task 2 - 模型评估
记录7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出Roc曲线。数据集加载@004 的下述代码关于DataFrame的drop函数DataFrame.drop(labels=None,axis=0, index=None, columns=Non...原创 2018-12-15 17:00:21 · 1314 阅读 · 0 评论 -
梯度下降法、牛顿法、拟牛顿法 三类迭代法应用场景有何差别?
梯度下降法、牛顿法、拟牛顿法 三类迭代法应用场景有何差别?By Datawhale知乎内容输出小组D1问题:梯度下降法一族(如SGD、Adam)、牛顿法一族(如Gauss-Newton Method,LM法)、拟牛顿法一族(如L-BFGS)是机器学习中最常见的三大类迭代法,但三者分别通常擅长解决的应用场景是什么?为什么会这样的呢?谢谢解答:梯度下降法(SGD为例)牛顿法拟牛...原创 2019-01-12 19:25:40 · 3740 阅读 · 0 评论 -
随机森林中是怎么对数据进行随机选择的?
随机森林中是怎么对数据进行随机选择的?By Datawhale知乎内容输出小组D1解答:首先我有个疑问 - 关于str2的符号’.'需要去掉吗?原创 2019-01-12 19:26:28 · 3856 阅读 · 3 评论 -
ML - 贷款用户逾期情况分析1 - Baseline
文章目录任务总述基本思路代码部分1.数据集预览2.数据预处理删除无用特征字符型特征-编码缺失特征处理3.特征工程4.模型选择数据集划分LR模型SVM模型决策树模型5.模型调参6.性能评估7.最终结果遇到的问题ReferenceMore任务给定金融数据,预测贷款用户是否会逾期。(status是标签:0表示未逾期,1表示逾期。)Task1 - 构建逻辑回归模型进行预测(在构建部分数据需要进行缺失...原创 2018-11-16 14:58:03 · 2903 阅读 · 5 评论 -
ML模型4-2:SVM之软间隔支持向量机
软间隔支持向量机1. 问题引入在实际任务中,很难确定一个线性可分的超平面(存在某些异常点,这些点不能满足函数间隔≥1的约束条件);或者说找到了合适的超平面,也很难断定这个貌似线性可分的结果是否由于过拟合导致。为了包容异常点或者为了避免过拟合,我们允许SVM在一些样本上出错(e.g 下图红色圈中的样本没有划分正确),此时最大化的间隔称为"软间隔"。而在线性可分SVM中要求所有样本都满...原创 2018-11-01 20:52:34 · 351 阅读 · 0 评论 -
ML模型4-1:SVM之线性可分支持向量机
支持向量机SVM是一个二分类的分类模型。它的学习目标 - 在特征空间中找到一个分类超平面wx+b=0,使正例和反例之间的间隔最大(所有点中离超平面最近的点具有最大间距),这样能有较好的泛化能力。1. 问题引入分类学习的基本思想 - 基于训练集在样本空间找到一个分类超平面,将不同类别样本分开。从下图可以看出:存在多个分类超平面将训练样本分开。那么我们需要思考:这么多的分类超平面,哪个...原创 2018-10-31 16:52:12 · 268 阅读 · 0 评论 -
统计学习方法——第三章K近邻
KNN算法直接求解(Python代码),Kd-Tree解决最近邻问题(Python)原创 2017-11-21 21:20:04 · 421 阅读 · 0 评论 -
统计学习方法——第四章朴素贝叶斯
朴素贝叶斯算法的引入、公式以及利用Navie-Bayers-分类垃圾邮件的Python代码原创 2017-11-23 19:51:50 · 683 阅读 · 0 评论 -
统计学习方法——第五章决策树
决策树(Decision-tree)的ID3算法以及一个简单案例(python)原创 2017-12-04 16:36:58 · 1178 阅读 · 0 评论 -
统计学习方法——第六章logistic递归
logistic递归的讲解及代码实现原创 2017-12-05 20:59:26 · 707 阅读 · 0 评论 -
案例:垃圾邮件二分类
垃圾邮件二分类的两种模型:支持向量机和朴素贝叶斯。原创 2017-11-27 15:28:28 · 3299 阅读 · 0 评论 -
ML模型1:KNN概述及优缺点
简介给定有监督的训练集,对新的输入实例,在训练集中找到与该实例最近的k个实例。如果这k个实例的多数属于某个类,就把该输入实例分为这个类。三要素 k值的选择,距离度量方法和分类决策规则。k值的选择 k值较小(,意味着整体模型复杂,可能会导致过拟合。 k值较大,相当于在较大邻域进行预测,这时与输实例较远(不相似的)训练实例也会起作用,使预测发生错误。 应用中...原创 2018-05-21 20:48:18 · 1933 阅读 · 0 评论 -
ML模型2:线性回归模型
基础知识最大似然估计1. 什么是似然?模型的参数未知,通过结果去推断模型参数,这称为似然。举个栗子八卦团发现,鹿晗和关晓彤戴同款手链,穿同款卫衣 → 推测这两人关系的“参数”是“亲密”。进一步挖掘,发现两人weibo频繁互动 → 似乎关系“参数”是“不简单”。…我觉得最大的可能性 → 关系的“参数”是“在一起”。2. 什么是最大似然估计?通过证据,对两人的关系的“参数”进行推断,...原创 2018-10-16 21:36:21 · 910 阅读 · 0 评论 -
ML模型3:逻辑回归模型
逻辑回归的损失函数为什么要使用极大似然函数作为损失函数?损失函数一般有四种:平方损失函数/对数损失函数/HingeLoss0-1损失函数/绝对值损失函数。- 极大似然函数取对数 = 对数损失函数.逻辑回归模型下,对数损失函数的训练求解参数的速度是比较快的。更新速度只和xij,yi相关。和sigmoid函数本身的梯度无关。这样更新的速度是可以自始至终都比较的稳定。- 为什么不选平方损失函数的呢...原创 2018-10-20 21:14:01 · 575 阅读 · 0 评论 -
机器学习---第七讲支持向量机
本文来自Standford公开课machine learning中Andrew老师的讲解内容(https://class.coursera.org/ml/class/index)原创 2017-11-20 20:04:09 · 493 阅读 · 0 评论