
机器学习
文章平均质量分 87
管牛牛
搜索个人公众号:程序员大管,在后台可以下载自己整理的机器学习,深度学习和python资料包括电子书。
展开
-
机器学习常用数据集
下面分享和记录一些常用的机器学习数据集:Kaggle:爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。https://www.kaggle.com/UCI机器学习库:最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。http://mlr.cs.umass.edu/ml/VisualData:分好类的计算机视觉数据集,可以搜索~原创 2022-05-10 09:09:41 · 3651 阅读 · 10 评论 -
K-means算法代码详解及Demo
最近比较忙公众号更新的就不太及时,请各位大佬见谅,但是我依旧每天坚持学习。那今天大管就给各位小伙伴献上K-means算法的sklearn使用方法,以及在文章末尾我们使用K-Means算法对图片进行矢量化,即在保证图片质量的前提下来减少图片的使用(可以理解为压缩图片)。想回顾K-Means理论的小伙伴可以点击文章末尾的连接。K-means KMeans算法通过试着将样本分离到n组方差相等的情况下对数据进行聚类,使惯性或聚类内平方和最小化。该算法要求指定集群的数量。它可以很好地扩展到大量的样本...原创 2020-07-20 20:26:11 · 2661 阅读 · 0 评论 -
通俗易懂的LDA降维原理
目录例子LDA降维在前几篇的文章中,大管提到了PCA降维,有小伙伴私信说在实际情况中,效果不太好。那大管今天就和大家聊一聊另一种降维的方法线性判别分析 (LDA)。它目前也是机器学习领域中比较经典而且又热门的一种算法。 还记得在PCA中是怎样做的吗?简单来说,是将数据映射到方差比较大的方向上,最后用数学公式推导出矩阵的前TopN的特征向量,这里的方差可以理解为数据内部的离散程度。而LDA不同于PCA的是它是一种有监督的降维方法。下面举一个小例子来直观的说明PCA和LDA的不同降维方法...原创 2020-05-23 18:10:44 · 8182 阅读 · 1 评论 -
Logist Regression代码详解以及Demo
今天大管和大家来聊一聊逻辑回归在sklearn中的具体使用,以及详细的解析。在文章末尾,我们使用官网提供的案例来使用逻辑回归对鸢尾花数据集进行分类。目录Logist Regression#调用函数#参数Parameters#属性Attributes#代码举例#方法Methods#实例Logist Regression 逻辑回归,尽管它的名字,是一个线性模型的分类,而不是回归。Logistic回归在文献中也称为logit回归、最大熵分类(MaxE...原创 2020-05-20 11:17:45 · 1063 阅读 · 0 评论 -
如何向女朋友介绍损失函数
目录交叉熵损失函数均方误差自定义损失函数上篇文章咱们聊到了激活函数,在最后的时候又说到了输出层的一些东西。关于神经网络还有一点也是十分重要而又容易忽略的,那就是损失函数(lossfunction)。通俗的说,在神经网络中的损失函数是指寻找最优权重的依据指标。根据实际解决的问题不同,损失函数的形式往往也不相同。在神经网络中最常使用的损失函数有均方误差(meansquarederror)和交叉熵误差(crossentropyerror)。...原创 2020-05-14 17:22:04 · 285 阅读 · 0 评论 -
让女朋友都能听懂的激活函数(激活函数)
激活函数原理详解向女朋友介绍系列之激活函数。通过激活一词的解释,循循引入神经网络为什么要激活函数。分析了几种常见的激活函数并且激活函数的特点。激活函数是什么目录激活函数原理详解激活函数是什么感知机中的激活函数神经网络中的激活函数下面咱们来具体看几个激活函数sigmod激活函数Tanh(双曲正切函数)激活函数ReLU激活函数(最近最常使用的激活函数)Leaky ReLU激活函数输出层的激活函数激活函数的特点大管今天准备和大家来聊一聊激活函数,为...原创 2020-05-13 10:34:38 · 736 阅读 · 0 评论 -
岭回归分类器RidgeClassifier及RidgeCV(代码详解)
由于文章长度有限,上次大管和大家简单聊了下岭回归,今天咱们来看一下如何用岭回归做分类——岭回归分类器。RidgeClassifier 岭回归器有一个分类器变体:RidgeClassifier,这个分类器有时被称为带有线性核的最小二乘支持向量机。该分类器首先将二进制目标转换为{- 1,1},然后将该问题视为回归任务,优化与上面相同的目标。预测类对应于回归预测的符号,对于多类分类,将问题视为多输出回归,预测类对应的输出值最大。该分类器使用(惩罚)最小二乘损失来适应分类模型,而不是使用更传统的逻...原创 2020-05-09 09:46:58 · 17426 阅读 · 0 评论 -
线性回归和岭回归代码详解及Demo
最近有小伙伴问我说,有没有sklearn的代码详解,前面博客讲的有点偏理论了。接受了小伙伴的意见,以后大管就理论和代码穿插着聊吧。今天咱就来聊一聊sklearn中线性回归和岭回归(L2正则)的代码详解吧。sklearn.linear_model.LinearRegression 使用的方法是最小线性二乘回归,线性回归拟合系数w = (w1,…,wp)的线性模型,以最小化数据集中观...原创 2020-05-06 17:27:15 · 1121 阅读 · 0 评论 -
通俗易懂的PCA降维原理详解
在机器学习实际的开发中,对原始数据的处理可能会占到主要的工作量,数据处理的好坏也往往直接关系到模型最后结果的好坏。在我们对原始数据进行特征提取时,有时会得到高维的特征向量,其中包含很多冗余和噪声。此时我们希望在高维的特征中找到影响整体的最主要的特征,来提升特征的表达能力、降低训练的复杂度。今天大管就和大家来聊一聊主成分分析(Principal Components Analysis)...原创 2020-05-02 20:01:30 · 3292 阅读 · 0 评论 -
最大似然估计到底是怎么一回事
今天大管和大家聊一聊极大似然估计是到底怎么一回事。有的同鞋看了很多机器学习算法,也用了很多极大似然估计,可能对它具体是什么还有点懵。既然要把极大似然估计搞明白,就绕不开一个话题,什么是估计。这里我们聊点估计和函数估计。点估计点估计的目的是为一些我们感兴趣的量提供一个最优的预测。比如说前几篇中提到的线性回归的权重。我们把θ的点估计表示为θ^。令数据是独立同分布的,则点估...原创 2020-04-29 19:37:07 · 1348 阅读 · 1 评论 -
分类模型评判的指标(附ROC实现)-通俗易懂
在机器学习领域,判断模型的好坏往往是通过评价指标来得到的。而在众多的指标中,大部分指标只能片面的反应模型的一部分性能,如果不能合理的运用,往往会得到错误的结论。下面我们通过一个小故事来开始今天的内容:某公司希望把自己的广告针对性的定向投放给客户,为此该公司将所有客户的数据分为训练集和测试集,建立了模型,并且模型的准确率达到了95%,但是在实际过程中广告的投放还是没有针对性,这是为什么呢?下...原创 2020-04-28 19:34:05 · 1551 阅读 · 0 评论 -
过拟合与欠拟合
在模型的评估过程中,我们经常会遇到“过拟合”和“欠拟合”的情况,如何针对这些情况进行调整是改进机器学习算法的关键,特别是在实际项目中更应该采用多种方法来处理“过拟合”和“欠拟合”。什么是“过拟合”和欠拟合小编用一个例子来为大家解释:小明同学在大学本科期间的学习非常优异,每次的英语考试成绩都是满分,突然有一个小明想去美国留学来提升自己。经过半年的准备,小明踏上了留美之路,当他来到美国...原创 2020-04-24 17:33:49 · 461 阅读 · 0 评论 -
线性回归的sklearn代码实现
前几天大管在文章中讲了回归和L2正则的一些知识点,今天上午有小伙伴问了一些问题并且问我有没有具体的python代码。这篇文章大管就和大家一起学习sklearn中封装好的代码。话不多说直接上代码:import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegression...原创 2020-04-23 21:54:25 · 1044 阅读 · 0 评论 -
一文读懂余弦相似度
在探究机器学习问题时,我们常常需要比较两篇作文的相似度有多高,网上的两篇新闻的相似度有多高,两个用户对于不同电视剧的喜好相似度有多高,在求解这类问题时,实际上是在计算他们之间的余弦相似性。那么究竟什么是余弦相似度,什么又是余弦距离,它又是如何判断两篇新闻的相似度的?余弦相似度和余弦距离 首先来看上图的两个向量a和b,余弦相似性就是使用a和b之间的夹角的余弦值作为度量,关注...原创 2020-04-18 16:12:42 · 2727 阅读 · 0 评论 -
K均值聚类
K均值聚类又叫做(k-means算法)是属于无监督学习里的一种最基础最常用聚类算法。所谓聚类即人以类聚、物以群分,将样本按照各自的特点分为不同的类别,所谓无监督即事先不知道任何样本属于哪个类别。如下图所示一些样本被分为了绿色,红色,蓝色的三类。聚类的应用非常广泛包括客户群体的划分,推荐系统,文本聚类中,国家电网用户画像,基于用户位置信息的商业选址等。下面就让我们一起快乐的学习吧!...原创 2020-04-16 21:53:54 · 4978 阅读 · 0 评论 -
如何进行特征归一化
为了使不同的特征之间具有可比性,我们往往需要对特征进行归一化处理。比如现在对大管的外貌特征进行分析,大管身高1.70米,体重60kg,那么这样分析出的结果显然会偏向较大的体重特征。想要更为准确的结果,就需要对大管的身高体重进行归一化(Normalization)处理。对数值类型的特征做归一化可以将特征统一到一个大致相同的数值区间内。最常用的方法有以下两种:(1)线性函数归一化(Min-Ma...原创 2020-04-15 16:06:52 · 1986 阅读 · 0 评论 -
使用tensorflow进行手写数字识别
首先要在对应的目录下安装好手写数字识别数据集。编写代码如下所示:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("F:/anaconda/workspace/Data/MNIST_data",one_ho...原创 2020-03-30 15:18:08 · 819 阅读 · 0 评论 -
tensorflow简单的Demo
使用tensorflow来进行拟合import tensorflow.compat.v1 as tfimport numpy as np#适应tensorflow2.0版本tf.compat.v1.disable_eager_execution()#使用numpy生成100个点x_data = np.random.rand(100)#相当于一条线目标的k为0.1 目标b为0.2...原创 2020-03-17 17:14:51 · 987 阅读 · 0 评论 -
逻辑回归分类、决策树分类、朴素贝叶斯分类及手写数字识别
逻辑回归使用逻辑回归进行鸢尾花分类:import numpy as npfrom sklearn.linear_model import LogisticRegressionimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn import preprocessingimport pandas a...转载 2019-06-25 21:40:30 · 1788 阅读 · 0 评论