
python机器学习及实践
记录,范淼,李超.Python 机器学习及实践[M].清华大学出版社, 北京, 2016.这本书的学习心得
曹文杰1519030112
本人在上海师范大学应用统计学专硕毕业,爱好数据分析和Python
展开
-
python机器学习——xgboost使用
xgboost使用首先需要安装xgboost,详见安装。本文以“泰坦尼克号沉船事故”数据集为例,对比随机决策森林以及XGBoost 模型对泰坦尼克上的乘客是否生还的预测能力:# 导入 pandas 用于数据分析import pandas as pd# 利用 pandas 的 read_csv 模块直接从互联网收集泰坦尼克号乘客数据(通过 URL 地址来下载 Titanic 数据)titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wik原创 2020-08-28 09:27:31 · 471 阅读 · 0 评论 -
python机器学习——xgboost简介
xgboost简介(1)背景(2)什么是 XGBoost(3)为什么要用 XGBoost(4)XGBoost 相比传统 gbdt 有何不同?xgboost为什么快?xgboost如何支持并行?参考(1)背景Boosting 分类器属于集成学习模型,它基本思想是把成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。这个模型会不断地迭代,每次迭代就生成一颗新的树。对于如何在每一步生成合理的树,大家提出了很多的方法,我们这里简要介绍由 Friedman 提出的 Gradient Boostin原创 2020-08-28 09:01:27 · 1230 阅读 · 0 评论 -
python机器学习——网格搜索实现
网格搜索实现本文我们依然使用波士顿房价数据作为案例,进行分析。下面是使用默认参数的随机森林模型的效果# 从 sklearn.datasets 导入波士顿房价数据读取器。from sklearn.datasets import load_boston# 从读取房价数据存储在变量 boston 中。boston = load_boston()# 从sklearn.cross_validation 导入数据分割器。from sklearn.model_selection import train原创 2020-08-27 09:33:11 · 3392 阅读 · 0 评论 -
python机器学习——超参数网格搜索
网格搜索理论(1)参数与超参数参数是由模型从数据中学习得到的。如回归中各自变量前的系数。超参数:所谓超参数,就是机器学习模型里面的框架参数,比如聚类方法的类别的个数,随机森林生成树的个数。它们跟训练过程中学习的参数(权重)是不一样的,通常是手工设定几个取值,然后通过不断试错调整,对一系列穷举出来的参数组合一通枚举(叫做网格搜索)。【例】① SVR 需要事先决定核心函数( kernel function )的类型,若选择不当,则得不到良好的预测结果;sklearn.svm.SVC(C=1.0, k原创 2020-08-26 10:38:22 · 2104 阅读 · 0 评论 -
python机器学习—— 模型评估
模型评估我们发现了仅仅使用默认配置的模型与不经处理的数据特征,在大多数任务下是无法得到最佳性能表现的,因此,在最终交由测试集进行性能评估之前,我们选择利用手头仅有的数据对模型进行调优。前面我们利用的测试集实际上不是严格意义上的测试集,实际上那叫验证集,测试集在监督学习的情况下是没有 y 的,或者说并不知道 y 。分类问题分类模型是数据挖掘中应用非常广泛的,常用的分类算法有 Logistic 模型、决策树、随机森林、神经网络、Boosting 等。针对同一个数据集,可以使用这么多的算法,那如何评估什么样原创 2020-08-26 10:13:44 · 1717 阅读 · 0 评论 -
python机器学习——正则化实例
正则化实例还是使用前面“比萨饼价格预测”的例子:(1)L1 范数正则化—— Lasso 模型在 4 次多项式特征上的拟合表现# 输入训练样本的特征以及目标值,分别存储在变量 X_train 与 y_train 之中X_train = [[6], [8], [10], [14], [18]]y_train = [[7], [9], [13], [17.5], [18]]# 从 sklearn.linear_model 中导入 LinearRegression。from sklearn.linea原创 2020-08-26 08:35:15 · 1334 阅读 · 0 评论 -
python机器学习——正则化
范数正则化理论及具体案例操作1、正则化(1)什么是正则化(2)为什么要进行正则化(3)正则化原理2、范数(1)L0 范数(2)L1 范数参考文献1、正则化(1)什么是正则化正则化( Regularization )就是对最小化经验误差函数上加正则项约束,这样的约束可以解释为先验知识(有时候正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的 l-norm 先验,表示原问题更可能是比较简单的,这样的优化倾向于原创 2020-08-25 13:58:13 · 2428 阅读 · 0 评论 -
python机器学习——欠拟合,过拟合实例
欠拟合,过拟合及正则化实例实现参考文献以“比萨饼价格预测”问题为例,分别用 1 次, 2 次和 4 次函数去拟合,然后看看在测试数据上的表现。如表 3-1 所示,美国一家披萨店出手不同尺寸的比萨,其中每种直径( Diameter )都对应一个报价。我们所要做的是设计一个线性模型,可以有效地根据表 3-2 中比萨的直径特征来预测售价。目前我们所知,共有 5 组训练数据、4 组测试数据,并且其中测试数据的披萨报价未知。根据我们的经验,如果只考虑比赛的尺寸与售价的关系,可以使用线性回归模型建模:(1)使原创 2020-08-24 07:38:35 · 1258 阅读 · 0 评论 -
python机器学习——欠拟合与过拟合
欠拟合与过拟合欠拟合和过拟合(1)泛化能力(2)欠拟合(3)过拟合(4)机器学习中好的拟合(5)两个例子(6)如何判断一个模型是欠拟合还是过拟合参考文献所谓拟合,是指机器学习模型在训练的过程中,通过更新参数,使得模型不断契合可观测数据(训练集)的过程,但在这个过程中容易出现欠拟合和过拟合的情况:一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整参数使得模型能够更好的拟合训练集数据,但是优化到了一定程度就需要解决过拟合的问题了。欠拟合和过拟合(1)泛化能力泛化:具体指模原创 2020-08-23 13:18:52 · 2104 阅读 · 0 评论 -
python 机器学习——特征筛选实现
特征筛选实现1、特征筛选2、特征筛选具体案例操作参考文献:1、特征筛选(1)含义特征筛选/选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的 M 个特征( Feature )中选择 N 个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个原创 2020-08-22 09:43:07 · 10870 阅读 · 2 评论 -
python机器学习及实践——基础篇整理
一、监督学习——分类模型1、支持向量机入门简介2、手写体数据识别——支持向量机案例3、Python 机器学习及实践——朴素贝叶斯理论4、python 机器学习——K 近邻分类理论及鸢尾( Iris )数据集实例操作5、python机器学习——决策树(分类)及“泰坦尼克号沉船事故”数据集案例操作6、python机器学习——集成学习(分类)及“泰坦尼克号沉船事故”数据集案例操作二、监督学习——回归模型1、python 机器学习——线性回归与波士顿房价案例2、python机器学习——支持向量机回原创 2020-08-21 10:02:18 · 484 阅读 · 0 评论 -
python机器学习——主成分分析PCA实现
主成分分析PCA实现一、数据降维二、应用“手写体数字图像”数据进行PCA操作参考文献:一、数据降维降维/压缩问题是选取具有代表性的特征,在保持数据多样性( Variance )的基础上,规避掉大量的特征冗余和噪声,不过这个过程也很有可能会损失一些有用的模式信息。经过大量的实践证明,相较于损失的少部分模型性能,维度压缩能够节省大量用于模型训练的时间,使得 PAC 所带来的模型综合效率变得更为划算。在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学原创 2020-08-21 09:38:47 · 1590 阅读 · 0 评论 -
python机器学习——主成分分析理论简介
主成分分析理论简介一、特征降维1.1什么是特征降维?1.2为什么要进行特征降维?1.3特征选择和特征抽取二、主成分分析(PCA)理论2.1 算法描述2.2 PCA 在图像识别的应用2.3、主成分分析法优缺点参考一、特征降维1.1什么是特征降维?采用低维度的特征来表示高维度的特征,减少计算机运算量的同时,最大程度保证信息量的完整。1.2为什么要进行特征降维?首先在机器学习中,如果特征的分量数目(也可称之为维度)过多,会发生所谓的维数灾难。维数灾难最直接的后果就是过拟合现象,而发生该现象最根本的原因是原创 2020-08-20 09:30:01 · 1072 阅读 · 0 评论 -
python机器学习——Kmeans之K值选取实现(肘部观察法)
Kmeans之K值选取实现# 导入必要的工具包。import numpy as npfrom sklearn.cluster import KMeansfrom scipy.spatial.distance import cdistimport matplotlib.pyplot as plt# 使用均匀分布函数随机三个簇,每个簇周围10个数据样本。cluster1 = np.random.uniform(0.5, 1.5, (2, 10))cluster2 = np.random.unif原创 2020-08-19 07:53:35 · 9693 阅读 · 0 评论 -
python 机器学习——Kmeans之K值的选取原理
Kmeans之K值的选取参考一般而言,没有所谓最好的选择聚类数的方法,通常情况下是需要根据不同的问题,人工进行选择的。选择的时候思考我们运用 K-means 算法聚类的动机是什么,然后选择能最好服务于该目的标聚类数。当人们在讨论选择聚类数目的方法时,有一个可能会谈及的方法叫作“肘部”观察法,下面就来详细介绍这种方法。(1)原理思路“肘部”观察法用于粗略预估相对合理的类个数。思路:因为 K-means 模型最终期望所有数据点到其所属的类簇距离的平方和趋于稳定,所以可以通过观察这个数值随着 K 的走势来原创 2020-08-18 08:10:44 · 3157 阅读 · 0 评论 -
python 机器学习——聚类性能评估
聚类性能评估一、综述二、Rand index(兰德指数)(RI) 、Adjusted Rand index(调整兰德指数)(ARI)三、Silhouette Coefficient(轮廓系数)(s(i))四、建模实例参考文献:一、综述聚类性能度量亦称聚类“有效性指标”(validity index)。与监督学习中的性能度量作用类似,对聚类结果,我们需要通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。聚类是将样原创 2020-08-16 11:29:13 · 3766 阅读 · 4 评论 -
python机器学习——Kmeans聚类
Kmeans聚类聚类基本思想Kmeans 介绍python 实现参考聚类基本思想背景: 由于获取带有标签的数据成本比较高(因为需要人工标记),而没有标签的数据却很容易获得。如果我们可以根据样本自身的属性或者说特征,给这写样本进行分类那么即节省了成本也达到了我们分类的目的。思想: 我们举一个例子来阐述聚类的基本思想,例如我们让一个班级的人走到操场上去玩耍,我们会发现一个班级的几十个人会自动的聚成几人一组,体现出一种无以类聚,人以群分的特点。Kmeans 介绍K-Means 算法主要解决的问题如下图所原创 2020-08-15 14:48:32 · 716 阅读 · 0 评论 -
python机器学习——聚类分析简介
聚类分析数据聚类理论理论一、聚类定义二、聚类与分类区别三、聚类分析的目的四、聚类主要方法数据聚类理论理论一、聚类定义数据聚类 ( Cluster analysis )是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。聚类分析是研究“物以类聚”的一种科学有效的方法,由实验测试得到的数据是原始数据,原始数据是没有进行分类的、无规律的、错综复杂的变量,要使得这些数据能够反映出一定的规律性或特殊的分类性,需要对数据或变量进行聚类分析,以使数原创 2020-08-10 18:41:42 · 1968 阅读 · 1 评论 -
python机器学习——实现bagging及随机森林(回归)
实现bagging及随机森林(回归)数据预处理bagging 实现随机森林实现参考本文我们依然使用波士顿房价数据作为案例,进行分析。数据预处理# 从 sklearn.datasets 导入波士顿房价数据读取器。from sklearn.datasets import load_boston# 从读取房价数据存储在变量 boston 中。boston = load_boston()# 从sklearn.cross_validation 导入数据分割器。from sklearn.model_s原创 2020-08-09 08:54:22 · 2861 阅读 · 3 评论 -
python机器学习——随机森林
随机森林综述随机性来源构成训练及预测超参数对模型性能的影响优点和缺点参考综述随机森林顾名思义是用随机的方式建立一个森林,森林由很多的决策树组成,决策树之间是没有关联的。随机森林即随机采样样本,也随机选择特征,因此防止过拟合能力更强,能够降低模型的方差,同时具有易解释性、可处理类别特征(例如性别)、易扩展到多分类问题、不需特征归一化或者标准化。随机性来源随机森林进一步在决策树训练时加入随机特征选择:如果有 M 个输入变量,每个节点都将随机选择 m(m<M)个特定的变量,然后运用这 m 个变量来确原创 2020-08-07 08:27:04 · 1609 阅读 · 0 评论 -
python机器学习——boosting集成学习
boosting集成学习boosting :训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。通俗来说,对于基模型1,我们使用训练集X0X_0X0,Y0Y_0Y0来训练,得到预测结果Y0^\hat{Y_0}Y0^,然后我们将Y0−Y0^Y_0-\hat{Y_0}Y0−Y0^得到残差Y1Y_1Y1,然后继续利用X1X_1X1(X1=X0X_1=X_0X1=X0)和Y原创 2020-08-06 11:20:43 · 479 阅读 · 0 评论 -
python机器学习——集成学习之bagging
集成学习之bagging思路集成学习框架之bagging思路集成学习( Ensemble learning )是指组合多个模型,以获得更好的效果,使集成的模型具有更强的泛化能力。简单来说,集成学习是一种技术框架,其按照不同的思路来组合基础模型,从而达到其利断金的目的。对于多个模型,如何组合这些模型,主要有以下几种不同的方法:① 在测试集上找到表现最好的模型作为最终的预测模型;② 对多个模型的预测结果进行投票或者取平均值( Simple Average );③ 对多个模型的预测结果做加权平均( W原创 2020-08-05 20:43:25 · 1076 阅读 · 0 评论 -
python机器学习——回归树理论与波士顿房价案例
回归树理论与波士顿房价案例一、回归树理论(1)回归树(2)回归树的建立(3)基于回归树的预测(4)剪枝二、K 近邻(回归)具体案例操作参考文献一、回归树理论(1)回归树当数据拥有众多特征并且特征之间关系复杂时,构建全局模型变得困难而笨拙,并且很多实际问题都是非线性的,不可能使用全局线性模型来拟合任何数据。一种可行的方法是将数据集切分成很多份易建模的数据,然后利用线性回归技术来建模和拟合。如果首次切分后仍然难以拟合线性模型就继续切分。在这种切分方式下,树结构的回归法就相当有用。回归树与分类树的思路类似原创 2020-08-04 11:40:33 · 958 阅读 · 0 评论 -
python 机器学习——k近邻回归与波士顿房价案例
k近邻回归与波士顿房价案例一、K 近邻(回归)理论(1)K 近邻回归原理(2)K 近邻加权法(3)算法流程(4)优缺点二、K 近邻(回归)具体案例操作参考文献:一、K 近邻(回归)理论(1)K 近邻回归原理K 近邻算法( K-Nearest Neighbor ,KNN )不仅可以用于分类,还可以用于回归。思路与前面的 KNN 分类器类似,通过找出一个样本的 k 个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值( we原创 2020-08-03 10:49:38 · 2323 阅读 · 0 评论 -
python机器学习——支持向量机回归与波士顿房价案例
支持向量机回归与波士顿房价案例一、从传统回归模型到支持向量回归模型二、核函数三、常用的几种核函数四、SVM 算法的优缺点五、建模实例(1)导入数据(2)划分训练集测试集(3)数据标准化参考文献:一、从传统回归模型到支持向量回归模型我们前面讨论过支持向量机分类模型,在前文的基础上我们来考虑回归问题。给定训练样本 D = {(x1,y1),(x2,y2),…,(xm,ym)}, yi∈R,希望学得一个形如的回归模型,使得 f(x) 与 y 尽可能接近,ω 和 b 是待确定的模型参数。对样本(x,y),原创 2020-08-02 17:24:46 · 7262 阅读 · 4 评论 -
python 机器学习——线性回归与波士顿房价案例
线性回归与波士顿房价案例一、比较回归与分类二、线性回归器理论(1)线性回归( Linear Regression )(2)线性回归的参数估计最小二乘法( Least squares )梯度下降法极大似然法( Maximum Likelihood,ML )三、线性回归模型性能评价指标四、预测美国波士顿地区房价(一)导入数据(二)划分训练集测试集(三)数据标准化(四)使用线性回归模型和随机梯度下降分别对美国波士顿房价进行预测(五)性能测评一、比较回归与分类回归和分类是机器学习中最基本的两类问题,这两类问题都原创 2020-07-31 09:07:02 · 16422 阅读 · 3 评论 -
python机器学习——集成学习(分类)及“泰坦尼克号沉船事故”数据集案例操作
集成学习(分类)及具体案例操作一、集成学习( Ensemble Learning )算法(1)集成学习简介(2)集成建模中的误差(方差vs偏置)(3)常用的集成学习技术:(4)随机森林(5)梯度提升决策树(Gradient Tree Boosting)二、集成学习具体案例操作(1)导入数据(2)特征选择(3)数据清洗(4)划分训练集测试集(5)特征转换(6)建立模型及性能测试参考文献:一、集成学习( Ensemble Learning )算法(1)集成学习简介定义:所谓集成,是指结合不同的学习模块(单原创 2020-07-30 12:12:05 · 3125 阅读 · 0 评论 -
python机器学习——决策树(分类)及“泰坦尼克号沉船事故”数据集案例操作
决策树(分类)及具体案例操作一、决策树(分类)算法(1)算法原理(类似于“分段函数”)(2)决策树的变量类型(3)量化纯度(4)基本步骤(5)决策树的优缺点二、决策树(分类)具体案例操作(1)导入数据(2)特征选择(3)数据清洗(4)划分训练集测试集(5)利用分类决策树算法建立模型(6)性能评估参考文献:一、决策树(分类)算法决策树是一种树形结构,为人们提供决策依据,决策树可以用来回答 yes 和 no 问题,它通过树形结构将各种情况组合都表示出来,每个分支表示一次选择(选择 yes 还是 no),直到原创 2020-07-30 11:16:14 · 5667 阅读 · 0 评论 -
python 机器学习——K 近邻分类理论及鸢尾( Iris )数据集实例操作
K 近邻分类理论及实例操作一、K 近邻分类理论二、K 近邻分类实例操作(1)导入数据划分训练集测试集(3)数据标准化(4)用 K 近邻法建立模型(5)性能评估参考文献:一、K 近邻分类理论K 近邻算法简称 KNN 算法,由 Cover 和 Hart 在 1968 年提出,是一种基本分类与回归方法。K 近邻算法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。K 近邻的一个常用的实现方法是 kd 树( KD-Tree ),可以做到以空间换时间的效果。思路:如果一个样本在特征空间中的 K原创 2020-07-30 10:14:20 · 4552 阅读 · 0 评论 -
python机器学习及实践——简介篇整理
python机器学习及实践——简介篇整理一、机器学习与人工智能1、什么是机器学习?什么是人工智能?人工智能是万能的吗?2、人工智能的几个小故事二、anaconda 与 python1、anaconda 的安装(windows 64位操作系统2、python编程基础——算术运算3、Python 的6种数据类型4、Python——比较运算,赋值运算,逻辑运算,成员运算三、一个经典机器学习案例——良/恶性乳腺癌肿瘤预测1、良/恶性乳腺癌肿瘤预测简介2、机器学习——logistic 回归3、原创 2020-07-30 08:10:03 · 388 阅读 · 0 评论 -
二分类问题评价指标
二分类问题评价指标评价指标(1)混淆矩阵(Confusion Matrix)准确率精确率(查准率)召回率(查全率)F1 score参考文献:评价指标当一个分类器建立后,要对其分类准确度进行评价。分类器的性能评价不仅能够指导分类器的训练过程,而且可以比较不同分类器的性能。本文主要介绍混淆矩阵和常用的几个评价指标。(1)混淆矩阵(Confusion Matrix)对于一个二分类问题,可以得到如下的混淆矩阵,行表示数据在模型上的预测类别(predicted class/predicted conditio原创 2020-07-28 18:49:20 · 960 阅读 · 0 评论 -
Python 机器学习及实践——朴素贝叶斯理论
朴素贝叶斯理论朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。1. 基本原理介绍对于多分类模型:假设有 K 种可能的类别标记,即 y={ C1,C2,…,Ck },记 P(y=ci|x)为特征向量 x 属于 ci 的概率。根据贝叶斯原理:我们的目标是寻原创 2020-07-21 20:44:30 · 415 阅读 · 0 评论 -
手写体数据识别——支持向量机案例
手写体数据识别——支持向量机案例在本案例中,我们将使用支持向量机分类器对 Scikit-learn 的手写体数字图片数据集进行处理。数据描述邮政系统每天都会处理大量的信件,最重要的一环是根据信件上的收件人邮编进行识别和分类,以便确定信件的投送地点。原本这项任务是靠人工完成的,后来人们尝试让计算机代替人工。由于多数的邮编都是手写数字,并且样式各异,所以没有统一编制的规则可以很好地用于识别和分类。有大量研究证明,支持向量机可以在手写体数字图片的分类任务上展现量好的性能。本文以88的灰度图片,通过像素数据构原创 2020-07-20 19:23:27 · 1796 阅读 · 0 评论 -
支持向量机入门简介
支持向量机入门简介1. 背景支持向量机(Support Vector Machine)于 1995 年正式发表[ Cortes and Vapnik,1995 ],由于在文本分类任务中显示出卓越性能,很快成为机器学习的主流技术,并直接掀起了“统计学习”在 2000 年后的热潮。但实际上,支持向量的概念早在二十世纪六十年代就已出现,统计学习理论在七十年代就已成型。SVM 的求解通常是借助于凸优化技术[ Boyd and Vandenberghe,2004 ]。2. 简介支持向量机( Support V原创 2020-07-17 15:02:18 · 1206 阅读 · 0 评论 -
Python实现经典机器学习案例——良/恶性性乳腺癌肿瘤完整数据预测
Python实现经典机器学习案例 良/恶性性乳腺癌肿瘤完整数据预测首先我们介绍一个概念,监督学习。监督学习“机器学习中监督学习模型的任务是根据已有经验知识对未知样本的目标/标签进行预测。根据目标预测变量的类型不同,我们把监督学习任务大体分为分类和回归两类。”所谓分类就是预测目标是离散取值的变量,所谓回归就是预测目标是连续取值的变量。下图为监督学习任务的基本流程:首先准备训练数据,可以是文本、图像、音频等;然后提取所需要的特征,形成特征向量(Feature Vectors);接着,把这些特征向量连同原创 2020-07-16 19:32:02 · 16338 阅读 · 10 评论 -
Python 之 sklearn——logistic回归
Python 之 sklearn——logistic回归尽管从名字上看逻辑回归模型属于回归模型,但是实际上它是一个线性分类模型。logistic回归又称logit回归,是最大熵分类或者对数线性分类器。该模型使用逻辑函数对描述单个试验可能结果的概率进行建模。sklearn 里的 LogisticRegression 类,可以处理 2 分类问题 One-vs-Rest 问题。同时可以实施 l1 l2 Elastic-Net 的正则化,使得结构风险最小化。【注】One-vs-Rest 问题:例如我们现在要处原创 2020-07-15 19:53:58 · 2624 阅读 · 0 评论 -
Python实现经典机器学习案例 良/恶性性乳腺癌肿瘤预测
Python实现 良/恶性性乳腺癌肿瘤预测首先给出数据下载地址http://note.youdao.com/groupshare/?token=C6B145FA919F41F8ACAAC39EE775441C&gid=93772390数据可视化画出一张以肿块厚度为横坐标,以细胞尺寸为纵坐标的,肿瘤阴阳性类型的散点图查看工作目录import os #调用 os 包,对文件目录进行操作os.getcwd() #得到当前的工作目录找到工作目录所在位置,并将数据复制到该目录下读取原创 2020-07-14 20:07:09 · 3836 阅读 · 2 评论 -
机器学习——logistic 回归
logistic 回归Logistic 回归( Logistic regression )是统计学习中的经典分类方法,和最大熵模型一样同属于对数线性模型是一种概率型非线性回归模型,也是一种广义线性回归( Generalized linear model ),因此与多元线性回归分析有很多相同之处,它们的模型形式基本上相同,都具有 w’x+b ,其中 w 和 b 是待估计的参数,其区别在于它们的因变量不同,多元线性回归直接将 w’x+b 作为因变量,即 y=w’x+b ,而 logistic 回归则通过函数原创 2020-07-13 20:58:19 · 706 阅读 · 0 评论 -
Python——比较运算,赋值运算,逻辑运算,成员运算
Python——比较运算,赋值运算,逻辑运算,成员运算本文主要介绍 Python 的四种运算比较运算比较运算一般返回的是布尔值类型的数据,通常情况来说就是数字比大小。# 整数比较10<2010>20# 整数与浮点数的比较30<=30.030>=30.0# 判断两个值是否相等30 == 40# 判断两个值是否不相等30 != 40【注】在进行比较时,等于用“ == ”表示,不等于用“ != ”表示。赋值运算在很多情况下,我们需要对数据运算的中间原创 2020-07-11 14:52:43 · 566 阅读 · 0 评论 -
Python 的6种数据类型
Python 数据类型瑞士计算机科学家、1984年图灵奖获得者 Niklaus E.Wirth 有一个非常经典的一个观点——所谓的计算机程序就是算法+数据结构。由此可见算法和数据结构在编程中的重要程度,因此我们今天介绍python 的 6 种数据类型:数字(Number),布尔值(Boolean),字符串(String),元组(Tuple),列表(List)和字典(Dictionary)。注释: 以 # 开头的代码行就是注释,对于注释计算机会将它忽略,这并不代表注释不重要,事实上,一个优秀的程序注释所占原创 2020-07-10 12:57:59 · 2673 阅读 · 0 评论