
机器学习
文章平均质量分 60
wyh_wen
我是一名机器学习工程师,喜欢研究各种算法,更喜欢和大家分享学习。
展开
-
线性回归的数学推导
线性回归是最基础的算法,同时也是其他高级算法的根基,下面就和大家一起进攻基础算法之线性回归。线性回归模型是用一条曲线去拟合一个或多个自变量 x 与因变量 y 之间关系的模型,那模型的好坏关键在于真实值与预测值之间的差异 。一般表达式 向量表达式 ...原创 2018-10-26 10:00:04 · 501 阅读 · 0 评论 -
经典算法(三):决策树
一、决策树概念 在经典算法中,决策树是常用的算法之一。前面提到的线性回归可以解决回归问题,逻辑回归可以解决分类问题,而今天要学习的决策树不但可以回归问题,还可以解决分类问题。顾名思义,决策树分为两种树,回归树和分类树。在分类算法中,决策树是根基。现在常用的随机森林也是基于多个决策树集成的算法。从名称可以看出,决策树是含有分叉的树状算法。决策树思想是寻找最纯净的划分方法,...原创 2019-03-19 16:58:51 · 865 阅读 · 0 评论 -
预测贷款用户是否逾期:数据清洗与预处理
任务一做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析。这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期。1.查看数据可以使用excel或者SPSS等分析软件打开文件进行查看,当然是数据量允许的情况下才能用excel打开,否则你的电脑会一直转圈圈。还有就是可以导入python查看,一般python导入数据使用的...原创 2019-03-04 09:07:39 · 1099 阅读 · 0 评论 -
特征选择
特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。1 特征重要性度量计算某个特征X的重要性时,具体步骤如下:1)对每一颗决策树,选择相应的袋外数据(out of bag,OOB)计算袋外数据误差,记为errOOB1.所谓袋外数据是指,每次建立决策树时,通过重复抽样得到一个数据用于训练决策树,这时还有大约1/3的...转载 2019-02-19 16:27:42 · 228 阅读 · 0 评论 -
LogisticRegression在sklearn中的参数详解
LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='liblinear', max_iter=100, multi_class='ovr', ver...原创 2018-12-06 16:07:44 · 4819 阅读 · 0 评论 -
入门python代码系列:简单线性回归(二)
1.数据预处理数据预处理的详细请参考前一篇博文(数据清洗与预处理),这里简单带过。import numpy as npimport pandas as pdimport matplotlib.pyplot as plt #导入可视化模块data=pd.read_csv('E:/data/studentscores.csv')X=data.iloc[:,:1].valuesy...原创 2018-12-12 15:22:54 · 543 阅读 · 0 评论 -
入门python代码系列:数据清洗与预处理(一)
对于刚接触机器学习或者数据分析的同学来说,看大佬们比赛的代码是很难的,一头雾水,都是看不懂的,心里很慌。所以对于初学者来说,还是需要回归简单,只有掌握基础,才能不断深入,我是深有体会的,不知道你感觉如何?接下来我将梳理一套针对初学者的代码系列,希望可以帮助大家也受益自己。1.导入需要的库import numpy as npimport pandas as pd2.导入...原创 2018-12-07 17:54:32 · 1777 阅读 · 0 评论 -
经典算法(二):逻辑回归
目录 一、逻辑回归数学来源 二、极大似然法 三、逻辑回归算法过程 四、逻辑回归算法Python实战 一、逻辑回归数学来源 说到算法,我们首先想到的是线性回归和逻辑回归这两种基础算法,上一篇博文详细学习线性回归,我们都知道线性回归是回归算法,可以得到实值。而在名称上类似的逻辑回归虽然也有“回归”两个字,但是逻辑回归...原创 2018-11-19 16:46:52 · 418 阅读 · 0 评论 -
一元线性回归VS多元线性回归
一元线性回归和多元线性回归表面意思容易理解,但是结合实际的数据集,会混乱。这也是在编写线性回归博文的时候梳理知识点发现自己的不足,同时记录下来,让有疑问的同学也可以得到答案,拨开乌云。1.在数据集上的异同一元线性回归:给定数据集,其中,样本有1个属性描述。VS多元线性回归:给定数据集,其中 ,,样本有d个属性描述。 2.向量表达式一元线性回归: ...原创 2018-11-10 21:25:40 · 4165 阅读 · 0 评论 -
经典算法(一):线性回归
前言1. 基本形式2. 损失函数 2.1 损失函数 2.1.1 最小二乘法 2.1.2 极大似然估计 2.2正规方程法 2.2.1 一般形式 2.2.2 矩阵形式 2.3梯度下降法 2.3.1梯度下降法的代数方式描述 ...原创 2018-11-06 23:07:27 · 3572 阅读 · 0 评论 -
经典算法(四):KNN
一、算法概述 KNN也称为K近邻或最近邻(nearest neighbor),从字面来理解就是根据测试样本相对最近(属性相对最近)的K个训练样本的类别来决定该测试样本的类别(少数服从多数)。KNN是一种惰性学习方法(不需要训练模型),主要处理分类问题。有惰性学习方法,那么也有积极学习方法,前面讲到的决策树是积极学习方法。那怎么判断属性相对最近呢?其实KNN算法在寻找相对最近样本时...原创 2019-03-30 16:46:12 · 872 阅读 · 0 评论