
机器学习算法
文章平均质量分 92
Echo-z
这个作者很懒,什么都没留下…
展开
-
Sigmoid与Softmax的应用与不同
一、Sigmoid1、函数公式:公式中,z是单个原始输出值,如原始输出值为[-0.5,0.3, 1.5, -2.0],则z1=-0.5,z2=0.3,z3=1.5,z4=-2.0;sigmoid函数连续,光滑,严格单调,以(0,0.5)中心对称,是一个非常良好的阈值函数。sigmoid函数把一个实数压缩到(0,1),当z无穷大时,函数值趋于1,反之趋于0;我们知道(0,1)与概率值的范围是相对应的,这样sigmoid函数就能与一个概率分布联系起来了。我们经常说的...原创 2021-06-14 11:13:23 · 921 阅读 · 0 评论 -
机器学习之数据编码OneHotEnconder/LabelEnconder
OneHotEnconder/LabelEnconder在机器学习中,通常需要对类别型变量单独做处理,这是因为模型的输入项基本都需要是数值型变量,而类别变量本身不带数值属性,所以需要进行一层转换。一、OneHotEncondr1、为什么要独热编码因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让原创 2020-11-19 22:23:03 · 734 阅读 · 0 评论 -
基于KNNImputer缺失值填充
sklearn.impute.KNNImputerImputation for completing missing values using k-Nearest Neighbors.Each sample’s missing values are imputed using the mean value fromn_neighborsnearest neighbors found in the training set. Two samples are close if the feature..原创 2020-09-01 23:09:04 · 3723 阅读 · 0 评论 -
机器学习调参--gridSearchCV(网格搜索交叉验证)
gridSearchCV(网格搜索)的参数、方法及示例1.简介GridSearchCV的sklearn官方网址:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCVGridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦原创 2020-08-21 18:13:09 · 3422 阅读 · 0 评论 -
机器学习XGBoost模型调参技巧和代码实现
常规操作,先吹一下XGBoost:XGBoost的核心思想是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数。最后只需要将每棵树对应的分数加起来就是该样本的预测值。XGBoost对GBDT进行了一系列优化,比如损失函数进行了二阶泰勒展开、目标函数加入正则项、支持并行和默认缺失值处理等,在可扩展性原创 2020-05-31 12:04:26 · 1871 阅读 · 0 评论 -
机器学习集成学习 Ensemble Learning(常用集成算法汇总)
一、Voting 投票1、voting原理假设有1000种分类器,每个分类器预测的正确率只有50.5%,如果以预测类别最多的作为预测结果,则准确率可达到60%,如果有10000种分类器,则准确率可达到84%左右。该结果的前提是分类器彼此独立,但是现实中它们都在同一个数据集上进行训练,可能会犯同样的错误,所以准确率会有降低。2、Voting可以分为硬投票法(Harding Voting)和软投票法(Soft Voting)-- 硬投票法根据分类器预测的结果出现最多的类别作为预测值。--原创 2020-05-30 16:10:38 · 3503 阅读 · 0 评论 -
2019 CCF 乘用车销量预测
赛题通道:https://www.datafountain.cn/competitions/352baseline单模0.57,祝各位好运!!!import pandas as pdimport numpy as npimport lightgbm as lgbfrom sklearn.metrics import mean_squared_error as msefrom tq...原创 2019-09-30 11:37:26 · 3935 阅读 · 10 评论 -
逻辑回归 - - 原理推导
逻辑回归的主要思想:根据现有的数据对分类边界进行建立回归公式,以此进行分类。此处“回归”的意思是对要找到最佳的拟合参数集。目录一、逻辑回归是分类算法二、逻辑回归的函数(Sigmoid函数)三、Logistic的损失函数四、梯度下降法求解损失函数五、逻辑回归的优缺点一、逻辑回归是分类算法Logistic本质上是一个基于条件概率的判别模型(Discriminativ...原创 2019-07-23 18:23:56 · 2075 阅读 · 0 评论 -
特征工程(调整 算法模型上限的必备技能)
传授业内圣经:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。目录特征选择的方法一、业务知识二、Filter(过滤法)1、 方差筛选法:2、皮尔逊相关系数法:(主要用于回归算法中)3、互信息法4、假设检验三、Wrapper(包装法)四、Embedded(嵌入法)1、正则化2、基于树模型的特征选择法五、特征组合六、深度学习进行选择...原创 2019-07-12 18:33:37 · 1339 阅读 · 0 评论 -
lightgbm分类算法代码实现
# coding: utf-8# pylint: disable = invalid-name, C0111import jsonimport lightgbm as lgbimport pandas as pdimport numpy as npfrom sklearn.metrics import mean_squared_errortry: import cPick...原创 2020-06-04 13:45:46 · 1566 阅读 · 1 评论 -
决策树算法(ID3、C4.5、CART树)
一、决策树算法可以实现分类算法、回归算法,计算复杂度不高,对缺失值不太敏感,同时可以处理不相关特征;同时是集成学习算法Random Forest的基础算法;二、决策树类型(ID3、C4.5、CART树)1、ID3:解决分类问题1.1、分裂节点:计算信息增益,值最大的为当前分裂特征信息论中定义为互信息:,信息增益越大,当前节点该特征越适合做分裂特征熵的理解:特征的取值越多,其...原创 2019-05-23 20:00:25 · 811 阅读 · 0 评论 -
决策树算法(CART分类树和回归树)
决策树--CART树模型上一章节介绍了决策树的ID3、C4.5算法相应的原理及算法优缺点已经介绍,本章主要讲解CART树的原理及相较于ID3、C4.5算法的改进。1、CART树:可以解决分类和回归问题2、分裂节点的选择:CART树选取特征是根据基尼系数,基尼系数越小,模型的不纯度越小。ID3、C4.5都是基于熵的运存,会涉及大量的对数运算,为了解决这个问题,CART树用基尼系数作为...原创 2019-05-27 13:53:21 · 5553 阅读 · 0 评论