
机器学习
文章平均质量分 69
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。机器学习是人工智能的一个实现途径。
深海漫步鹅
弱小和无知不是生存的障碍,傲慢才是!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
详解ROC和AUC
机器学习,auc度量分类模型好坏的一个标准原创 2022-10-14 08:46:24 · 1332 阅读 · 1 评论 -
机器学习--聚类算法DBSCAN26
基于密度的方法:DBSCAN可视化网址:https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/DBSCAN = Density-Based Spatial Clustering of Applications with Noise本算法将具有足够高密度的区域划分为簇,并可以发现任何形状的聚类几个概念????邻域:给定对象半径????内的区域称为该对象的????邻域。核心对象:如果给定 ???? 邻域内的样本点数原创 2021-05-13 08:15:12 · 330 阅读 · 0 评论 -
机器学习--聚类算法k-means25
聚类算法一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果。聚类算法与分类算法最大的区别 聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。k-means其实包含两层内容:K : 初始中心点个数(计划聚类数)means:求中心点到其他数据点距离的平均值k-means聚类步骤1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的原创 2021-05-13 08:14:29 · 315 阅读 · 0 评论 -
机器学习--贝叶斯算法24
贝叶斯算法有通常三种模型:MultinomialNB,多项式模型BernoulliNB,伯努利模型GaussianNB,高斯模型概念词袋模型第一、统计所有文本中的所有不重复的词汇有多少个,如两篇文章:1。John likes to watch movies. 2.Mary likes too. John also likes to watch football games.总共出现了10个词汇。第二、把所有词汇构建一个词典索引,{“John”: 1, “likes”: 2,“to”: 3,“原创 2021-05-12 09:47:38 · 294 阅读 · 0 评论 -
机器学习--集成学习Stacking算法23
什么是Stacking使用多个不同的分类器对训练集进预测,把预测 得到的结果作为一个次级分类器的输入。次级分 类器的输出是整个模型的预测结果。Stacking需要训练两层分类器,第一层的初级分类器(比如:决策树 + KNN + 神经网络 + 逻辑回归)和第二层的次级分类器。代码实现from sklearn import datasets from sklearn import model_selection from sklearn.linear_model import Logist原创 2021-05-12 08:27:47 · 843 阅读 · 1 评论 -
机器学习--集成学习boosting算法22
什么是boosting随着学习的积累从弱到强,简而言之:每新加入一个弱学习器,整体能力就会得到提升。代表算法:Adaboost,GBDT,XGBoostAdaBoost是英文“Adaptive Boosting”(自适应增强) 的缩写,它的自适应在于:前一个基本分类器被错误分类的样本的权值会增大,而正确分类的样本的权值会减小,并再 次用来训练下一个基本分类器。同时,在每一轮迭代中,加入一个新的弱分类器,直到达到某个预定的足够小的错误率 或达到预先指定的最大迭代次数才确定最终的强分类器。每次抽原创 2021-05-12 08:26:59 · 243 阅读 · 0 评论 -
机器学习--集成学习随机森林算法21
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林 = Bagging + 决策树from sklearn import treefrom sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomForestClassifierimport numpy as npimport matplotlib.pyplot as plt#原创 2021-05-12 08:25:49 · 254 阅读 · 0 评论 -
机器学习--集成学习bagging算法20
集成学习Ensemble Learning通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。第一种算法:bagging导入算法包以及数据集from sklearn import neighborsfrom sklearn import datasetsfrom sklearn.ensemble import BaggingClassifierfrom sklearn imp原创 2021-05-12 08:25:01 · 500 阅读 · 0 评论 -
机器学习--决策树19
from sklearn import treeimport numpy as np# 载入数据data = np.genfromtxt("cart.csv", delimiter=",")x_data = data[1:,1:-1]y_data = data[1:,-1]# 创建决策树模型model = tree.DecisionTreeClassifier()# 输入数据建立模型model.fit(x_data, y_data)DecisionTreeClassifier(c原创 2021-05-12 08:24:10 · 172 阅读 · 0 评论 -
机器学习--决策树算法18
决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。ID3 算法存在的缺点 (1) ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息. (2) ID3算法只能对描述属性为离散型属性的数据集构造决策树。C4.5算法做出的改进(为什么使用C4.5要好) (1原创 2021-05-12 08:22:38 · 235 阅读 · 0 评论 -
机器学习--KNN算法17
K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法流程1)计算已知类别数据集中的点与当前点之间的距离2)按距离递增次序排序3)选取与当前点距离最小的k个点4)统计前k个点所在的类别出现的频率5)返回前k个点出现频率最高的类别作为当前点的预原创 2021-05-11 10:50:40 · 199 阅读 · 0 评论 -
机器学习--逻辑回归综合案例16
癌症分类预测-良/恶性乳腺癌肿瘤预测数据描述(1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤相关的医学特征,最后一列表示肿瘤类型的数值。(2)包含16个缺失值,用”?”标出。代码实现import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom s原创 2021-05-11 10:30:36 · 198 阅读 · 0 评论 -
机器学习--非线性逻辑回归15
import numpy as npimport matplotlib.pyplot as pltfrom sklearn import linear_modelfrom sklearn.datasets import make_gaussian_quantilesfrom sklearn.preprocessing import PolynomialFeatures生成2维正态分布,生成的数据按分位数分为两类,500个样本,2个样本特征可以生成两类或多类数据x_data, y_data原创 2021-05-11 10:24:11 · 267 阅读 · 0 评论 -
机器学习--逻辑回归14
逻辑回归介绍逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。逻辑回归就是解决二分类问题的利器。逻辑回归的原理要想掌握逻辑回归,必须掌握两点:逻辑回归中,其输入值是什么如何判断逻辑回归的输出输入:逻辑回归的输入就是一个线性回归的结果激活函数sigmoid函数判断标准回归的结果输入到sigmoid函数当中 输出结果:[0, 1]区间中的一个概率值,默认为0.5为阈值原创 2021-05-10 16:29:29 · 181 阅读 · 0 评论 -
机器学习--线性回归综合案例13
波士顿房价预测正规方程def linear_model1(): """ 线性回归:正规方程 :return:None """ # 1.获取数据 data = load_boston() # 2.数据集划分 x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22) # 3.特征工程-标准化 tr原创 2021-05-10 15:04:06 · 255 阅读 · 0 评论 -
机器学习--弹性网12
弹性网络在岭回归和Lasso回归中进行了折中,通过 混合比(mix ratio) r 进行控制:r=0:弹性网络变为岭回归r=1:弹性网络便为Lasso回归弹性网络的代价函数 :sklearn中的岭回归导入包vdfgfdimport numpy as npfrom numpy import genfromtxtimport pandas as pdfrom sklearn import linear_modelimport matplotlib.pyplot as plt读入数据原创 2021-05-10 14:51:39 · 319 阅读 · 0 评论 -
机器学习--Lasso 回归11
Lasso Regression(Lasso 回归)Lasso 回归是线性回归的另一种正则化版本,正则项为权值向量的ℓ1范数。L1正则化的应用。导入包import numpy as npfrom numpy import genfromtxtimport pandas as pdfrom sklearn import linear_model读入数据data =pd.read_csv(r"longley.csv",delimiter=',')print(data)Unnamed:原创 2021-05-10 14:40:54 · 220 阅读 · 0 评论 -
机器学习--岭回归10
导入包import numpy as npfrom numpy import genfromtxtimport pandas as pdfrom sklearn import linear_modelimport matplotlib.pyplot as plt读入数据data = pd.read_csv("longley.csv",delimiter=',')print(data)Unnamed: 0 GNP.deflator GNP Unemployed Arme原创 2021-05-10 12:18:39 · 828 阅读 · 1 评论 -
机器学习--正规方程法09
import numpy as npfrom numpy import genfromtxtimport matplotlib.pyplot as plt 读入数据data = genfromtxt(r"longley.csv",delimiter=',')print(data)原创 2021-05-10 11:16:15 · 257 阅读 · 0 评论 -
机器学习--多项式回归08
导入包import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegression载入数据data = np.genfromtxt("job.csv", delimiter=",")x_data = data[1:,1]y_data = data[1:,2]plt.s原创 2021-05-10 10:06:02 · 295 阅读 · 0 评论 -
机器学习--多元线性回归07
导入包import numpy as npfrom numpy import genfromtxtfrom sklearn import linear_modelimport matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D 读入数据data = genfromtxt(r"Delivery.csv",delimiter=',')print(data)[[ 100. 4. 9.3][原创 2021-05-08 16:59:06 · 173 阅读 · 0 评论 -
机器学习--一元线性回归06
导入包from sklearn.linear_model import LinearRegressionimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt载入数据data = pd.read_csv("data.csv")x_data = data[:,0]y_data = data[:,1]plt.scatter(x_data,y_data)plt.show()print(x_data.shape原创 2021-05-07 17:25:08 · 297 阅读 · 0 评论 -
机器学习--三大件之三matplotlib05
Matplotlib专门用于开发2D图表(包括3D图表)以渐进、交互式方式实现数据可视化可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。能将数据进行可视化,更直观的呈现,使数据更加客观、更具说服力导入模块import matplotlib.pyplot as plt图形绘制流程# 0.准备数据x = range(60)y_shanghai = [random.uniform(15, 18) for i in x]# 1.创建画布plt原创 2021-05-07 15:56:36 · 146 阅读 · 0 评论 -
机器学习--三大件之二pandas04
Pandas2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础,借力Numpy模块在计算方面性能高的优势基于matplotlib,能够简便的画图独特的数据结构数据结构Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex。SeriesSeries是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。Series的创建原创 2021-05-07 15:39:14 · 195 阅读 · 3 评论 -
机器学习--三大件之一numpy03
机器学习三大件:numpy, pandas, matplotlibNumpy(Numerical Python)是一个开源的Python科学计算库,用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组,该对象是一个快速而灵活的大数据容器。NumPy提供了一个N维数组类型ndarrayimport numpy as npscore = np.array(原创 2021-05-07 14:28:06 · 206 阅读 · 2 评论 -
机器学习--算法分类与模型评估02
机器学习算法分类与模型评估一、机器算法分类根据数据集组成不同,可以把机器学习算法分为:监督学习无监督学习半监督学习强化学习1、监督学习定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类),即回归问题和分类问题。2、无监督学习定义:输入数据是由输入特征值组成,没有目标值;输入数据没有被标记,也没有确定的结果。样本数据类别未知;需要根据样本间的相似性对样本集进行类别划分。有监督,无监督算法对比:原创 2021-05-07 12:42:15 · 369 阅读 · 0 评论 -
机器学习--基础介绍01
目标了解机器学习的定义知道机器学习的工作流程掌握获取到的数据集的特性1、什么是机器学习机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。2、 机器学习工作流程◦ 1. 获取数据 ◦ 2. 数据基本处理 ◦ 3. 特征工程 ◦ 4. 机器学习(模型训练) ◦ 5. 模型评估 - 结果达到要求,上线服务 - 没有达到要求,重新上面步骤2.1 获取到的数据集介绍数据简介 - 一行数据我们称为一个样本, 一列数据我们成为一个特征 - 有原创 2021-05-07 11:42:49 · 211 阅读 · 0 评论