
机器学习
R戎
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习算法总结
贝叶斯分类器核心:将样本判定为后验概率最大的类贝叶斯分类器直接用贝叶斯公式解决分类问题。假设样本的特征向量为x,类别标签为y,根据贝叶斯公式,样本属于每个类的条件概率(后验概率)为:分母p(x)对所有类都是相同的,分类的规则是将样本归到后验概率最大的那个类,不需要计算准确的概率值,只需要知道属于哪个类的概率最大即可,这样可以忽略掉分母。分类器的判别函数为:在实现贝叶斯分类器时,需要知道每...转载 2018-11-27 19:59:46 · 485 阅读 · 1 评论 -
sklearn 随机森林参数属性接口及 在乳腺癌数据上的调参
1. 导入需要的库from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import cross...原创 2019-04-14 22:12:33 · 1103 阅读 · 0 评论 -
sklearn逻辑回归参数详解,及用逻辑回归制作评分卡
1 导库,获取数据%matplotlib inlineimport numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegression as LR#其实日常在导库的时候,并不是一次性能够知道我们要用的所有库的。通常都是在建模过程中逐渐导入需要的库。data = pd.read_csv(r"...原创 2019-04-16 11:11:18 · 4803 阅读 · 7 评论 -
sklearn随机森林-分类参数详解
sklearn中的集成算法1、sklearn中的集成算法模块ensembleensemble.AdaBoostClassifier : AdaBoost分类ensemble.AdaBoostRegressor :Adaboost回归ensemble.BaggingClassifier :装袋分类器ensemble.BaggingRegressor :装袋回归器ensem...原创 2019-04-12 20:58:04 · 39891 阅读 · 5 评论 -
决策树sklearn实现泰坦尼克号幸存者的预测 及决策树优缺点、参数、属性、接口总结
泰坦尼克号的沉没是世界上最严重的海难事故之一,今天我们通过分类树模型来预测一下哪些人可能成为幸存者。数据集来自https://www.kaggle.com/c/titanic,数据集包含两个csv格式文件,data为我们接下来要使用的数据,test为kaggle提供的测试集。接下来我们就来执行我们的代码。1. 导入所需要的库import pandas as pdfrom sklearn....原创 2019-04-12 10:05:43 · 3021 阅读 · 1 评论 -
sklearn决策树回归树详解,及波士顿房价预测,正弦曲线预测,及交叉验证实现
DecisionTreeRegressorclass sklearn.tree.DecisionTreeRegressor (criterion=’mse’, splitter=’best’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=No...原创 2019-04-11 17:57:36 · 5718 阅读 · 0 评论 -
skelearn 决策树及参数详解(分类一),实现红酒数据集分类
sklearn 中的决策树1、sklearn中决策树的类都在”tree“这个模块之下。这个模块总共包含五个类:2、sklearn建模的基本流程这个流程中分类树对应的代码from sklearn import tree #导入需要的模块clf = tree.DecisionTreeClassifier() #实例化clf = clf.fit(X_train,y_train) #用训练...原创 2019-04-11 15:01:34 · 7579 阅读 · 5 评论 -
梯度下降及python实现
梯度下降概念梯度是一个向量,表示函数在某一点处的方向导数,函数在这点沿着该方向变化最快。由此可知,当函数是一维函数时,梯度就是导数。一维梯度下降程序:使用梯度下降求解方程 y=x2−2x+1y=x2−2x+1 的最小值。观察学习率对梯度下降的影响。import matplotlib as mplimport matplotlib.pyplot as pltmpl.rcParam...原创 2019-03-27 17:25:46 · 4279 阅读 · 6 评论 -
指数平滑及python实现 用于预测下一个值
一般常用到的指数平滑法为一次指数平滑、二次指数平滑和三次指数平滑,高次指数平滑一般比较难见到,因此本文着重介绍了一次、二次和三次指数平滑的特点与不同。一次指数平滑一般应用于直线型数据,且一次指数平滑具有滞后性,可以说明有明显的时间性、季节性。二次指数平滑一般也应用于直线型,但是效果会比一次指数平滑好很多,也就相当于加强版的一次指数平滑。三次指数平滑可以应用于抛物线型的数据,因为数据在二次平滑...原创 2019-03-30 21:02:58 · 7669 阅读 · 1 评论 -
XGBoost与GBDT的区别总结
XGBoost与GBDT的区别·传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑回归(分类问题)或者线性回归(回归问题)。·传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。·xgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项...原创 2019-03-12 21:47:52 · 1106 阅读 · 0 评论 -
XGBoost复习
·XGBoost本质上还是GBDT,但是把速度和效率做到了极致;·不同于传统的GBDT方式,只利用了一阶的导数信息,XGBoost对loss func做了二阶的泰勒展开,并在目标函数之外加入了正则项整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。...原创 2019-03-12 21:46:32 · 225 阅读 · 0 评论 -
随机森林
随机森林引入·随机森林(Random Forest,简称RF)是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。·具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有d个属性)中选择一个最优属性;而在RF中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子...原创 2019-03-12 21:06:17 · 1563 阅读 · 0 评论 -
集成学习-bagging及boosting
Bagging算法流程1.从大小为n的原始数据集D中独立随机地抽取n’个数据(n’<=n),形成一个自助数据集;2.重复上述过程,产生出多个独立的自助数据集;3.利用每个自助数据集训练出一个“分量分类器”;4.最终的分类结果由这些“分量分类器”各自的判别结果投票决定。基本思想:对训练集有放回地抽取训练样例从而为每一个基本分类器都构造出一个跟训练集相当大小但各不相同的训练集,从而训练...原创 2019-03-12 11:42:35 · 597 阅读 · 0 评论 -
决策树
ID3由上述得出:年龄的信息熵最低,则信息增益最大。问题:如果加入ID属性,则信息增益最大,但是无法区分C4.5CART原创 2019-03-11 17:00:05 · 139 阅读 · 0 评论 -
逻辑回归及推导
逻辑回归另一种方法:sigmoid用来解决二分类问题,softmax解决多分类问题,sigmoid是softmax的特殊情况。LR的优缺点优点一、预测结果是界于0和1之间的概率;二、可以适用于连续性和类别性自变量;三、容易使用和解释;缺点1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归...原创 2019-03-10 22:05:34 · 245 阅读 · 0 评论 -
一元线性回归与多元线性回归理论及公式推导
一元线性回归回归分析只涉及到两个变量的,称一元回归分析。一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y;估计出的变量,称自变量,设为X。回归分析就是要找出一个数学模型Y=f(x)y=ax+b多元线性回归注:为使似然函数越大,则需要最小二乘法函数越小越好线性回归中为什么选用平方和作为误差函数?假设模型结果与测...原创 2019-03-10 21:34:15 · 9947 阅读 · 1 评论 -
线性回归及推导
注:为使似然函数越大,则需要最小二乘法函数越小越好线性回归中为什么选用平方和作为误差函数?假设模型结果与测量值 误差满足,均值为0的高斯分布,即正态分布。这个假设是靠谱的,符合一般客观统计规律。若使 模型与测量数据最接近,那么其概率积就最大。概率积,就是概率密度函数的连续积,这样,就形成了一个最大似然函数估计。对最大似然函数估计进行推导,就得出了推导后结果: 平方和最小公式注...原创 2019-03-09 09:01:14 · 550 阅读 · 0 评论 -
sklearn 数据处理与特征工程
1、数据处理的流程2 数据预处理 Preprocessing & Impute2.1 数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中,譬如逻辑回归,支持向量机,神经网络,无量纲化可以加快求解速度;而在距离类模型,譬如K近邻,K-Means聚类中,无...原创 2019-04-14 23:00:16 · 2135 阅读 · 1 评论