
机器学习
张大千09
这个作者很懒,什么都没留下…
展开
-
机器学习 Cohen s Kappa,Quadratic Weighted Kappa 详解
首先需要明确,Kappa系数既可用于统计中的一致性检验,也可以用于机器学习中来衡量分类精度。它们的本质是一样的,但是理解方式略有不同,本文将从机器学习的角度来阐述Kappa系数。一、基本思想一般来说,对于机器学习中的分类问题,最简单粗暴的衡量指标就是准确率(accuracy),但是对于样本标签分布极其不均衡的数据,准确率就会出现误导了。比如对于如下数据集,100个样本中10个是猫,10个是狗,需要预测每个样本是猫还是狗。当我们直接预测所有样本都是狗时,我们的预测率就可以达到90%。这个准确率会造成分原创 2020-05-25 15:22:16 · 14958 阅读 · 3 评论 -
sklearn机器学习实例 - 决策树和集成分类模型入门与实战
简介决策树(decision tree)是一类常见的机器学习方法,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。本文目的在于快速通过sklearn实践算法而获得直观感受,因此对于算法的原理不做过多深入介绍,感兴趣的朋友可以看下这篇博客:机器学习实战(三)——决策树问题引出下面我们通过实际的例子了解一下决策树是什么。本文使用的数据来自于一部经典的电影:泰坦尼克号所发生的真实事故...原创 2019-01-10 15:54:59 · 1596 阅读 · 0 评论 -
【Python机器学习实战】一个案例迅速入门所有的Scikit-learn回归模型
简介本文旨在通过经典的波士顿放假预测问题来实战运行一下sk-learn中所有常见的回归算法,因此不涉及过多的算法讲解。下面,先对本文中会用到的算法进行简单的介绍:线性回归器:线性回归器是最简单、易用的回归模型。由于预测目标直接是实数域上的数值,因此优化目标非常简单,即最小化预测结果和真实值间的差异。本文中我们将使用一种精确计算的解析算法(Linear Regression)和一种快速的随机梯...原创 2019-01-11 18:14:58 · 2275 阅读 · 1 评论 -
【Python机器学习实战】无监督学习之PCA和K-Means二连击
简介无监督学习着重于发现数据本身的分布特点。与监督学习不同,无监督学习不需要对数据进行标记。从功能上来看,无监督学习模型可以用于发现数据的“群落”(聚类),同时也可以寻找“离群”的样本,另外,对于特征维度非常高的数据样本,我们同样可以通过无监督的学习对数据进行降维(PCA),保留最具有区分性的低维度特征。这些都是在海量数据处理中非常实用的技术。K均值(K-means)算法K均值算法是数据聚...原创 2019-01-12 14:35:03 · 1087 阅读 · 0 评论 -
sklearn实例-逻辑回归(Logisitic Regression)和随机梯度下降(SGDClassifier)全流程
简介线性分类器可以说是最为基本和常用的机器学习模型。尽管其受限于数据特征与分类目标的线性假设,我们仍然可以在科学研究与工程实践中把线性分类器的表现作为基准。本文使用的模型包括LogisticRegression和SGDClassifier。本文的数据来自UC Irvine Machine Learning Repository的癌症分类数据。代码实例废话不多说,上代码!import n...原创 2019-01-09 10:35:17 · 4737 阅读 · 1 评论 -
sklearn实例-用支持向量机分类器(SVC)识别手写字体
简介支持向量机(Support Vector Machine)作为机器学习中最常用的算法之一,有着非常强大的性能。SVM既可以用来分类,即SVC(Support Vector Classifier);也可以用来预测(回归),那就是SVR(Support Vector Regression)。sklearn中的svm模块中同时集成了SVC和SVR。SVC,中文可称做支持向量机分类器,也被称做最...原创 2019-01-09 11:40:41 · 3891 阅读 · 1 评论 -
sk-learn实例-用朴素贝叶斯算法(Naive Bayes)对文本进行分类
简介朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型,与基于线性假设的模型(线性分类器和支持向量机分类器)不同,朴素贝叶斯分类器的构造基础是贝叶斯理论。抽象一些的说,朴素贝叶斯分类器会单独考量每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。因此,这个模型的基本数学假设是:各个维度上的特征被分类的条件概率之间是相互独立的。对朴素贝叶斯...原创 2019-01-09 15:29:46 · 2762 阅读 · 0 评论 -
sklearn实例 - K近邻算法讲解与实战分析
简介K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。如下图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说...原创 2019-01-09 16:40:04 · 1507 阅读 · 0 评论