机器学习
道八说胡
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习LR入门
监督学习关注对事物未知表现的预测,一般包括分类问题(Classification)和回归问题(Regression),无监督学习倾向于对事物本身特性的分析,常用的技术包括数据降维(Dimensionality Reduction)和聚类问题(Clustering)下面为‘良/恶性乳腺癌肿瘤预测’代码# -*- coding: utf-8 -*-import pandas as pd转载 2017-04-11 10:07:24 · 1965 阅读 · 1 评论 -
red hat linux离线安装python机器学习包 这篇就够了!
Python下大多数工具包的安装都很简单,只需要执行 “python setup.py install”命令即可。然而,由于SciPy和numpy这两个科学计算包的依赖关系较多,安装过程较为复杂。网上教程较为混乱,而且照着做基本都不能用。在仔细研读各个包里的README和INSTALL之后,终于安装成功。现记录如下。系统环境:OS:RedHat5Python版本:Python2.7.3转载 2016-11-26 00:09:29 · 3904 阅读 · 0 评论 -
集成学习分类和区别
集成学习1.1 定义所谓集成学习(ensemble learning),是指通过构建多个弱学习器,然后结合为一个强学习器来完成分类任务。并相较于弱分类器而言,进一步提升结果的准确率。严格来说,集成学习并不算是一种分类器,而是一种学习器结合的方法。下图显示了集成学习的整个流程:首次按产生一组“个体学习器”,这些个体学习器可以是同质的(homogeneous)(例如转载 2017-08-08 10:34:00 · 10633 阅读 · 0 评论 -
缺失值的处理
目前有三类处理方法:1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。2. 用其他变量做预测模型来算出缺失变量。效果比方法1略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建模的。一般情况下,介于两者之间。3. 最精确的做法,把变量映射到高维空间。比如性别,有男、女、缺失三种情况,则映射成3个转载 2017-08-08 16:34:56 · 615 阅读 · 0 评论 -
adaboost和GBDT的区别以及xgboost和GBDT的区别
AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后一轮的弱分类器的更大关注,于是,分类问题就被一系列的弱分类器“分而治之”。至于第二个问题,即弱分类器的组合,AdaBoost采取加权多数表决的方法。具体地,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率较大的弱分类器转载 2017-08-08 15:01:55 · 18837 阅读 · 1 评论 -
SVM参数介绍
SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差 gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。支持向量的个数影响训练与预测转载 2017-08-22 09:38:59 · 1461 阅读 · 0 评论 -
GridSearchCV用法
# encoding:utf-8from sklearn.model_selection import train_test_splitfrom sklearn import datasets, svmfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import accuracy_scoreiris转载 2017-08-23 15:04:02 · 1642 阅读 · 0 评论
分享