
机器学习
文章平均质量分 68
机器学习笔记与总结
Archv
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
16.应用举例
文章目录前言1.图片处理流程2.获得大量数据3.上限分析总结前言 最后用一个实例结束学习。1.图片处理流程 本次任务时识别图片中的字符,处理分为3步:文本检测,字符切分,字符识别。1.文本检测 先定义几个滑动窗口对图片进行扫描,扫描就是窗口将图片遍历一遍的过程,每次扫描得到的图片都会被二分类,识别是否存在字符。最后将所有存在字符的图片拼接汇总。2.字符切分 同样是利用滑动窗口对有字符的图片进行扫描,然后同样是二分类问题,识别图片中是否含有完整字符。3.字符识别 分类问题,原创 2021-06-29 22:36:34 · 230 阅读 · 1 评论 -
15.大规模机器学习
文章目录1.大规模机器学习2.随机梯度下降3.Mini-Batch梯度下降4.在线学习5.MapReduce总结1.大规模机器学习 如上图所示,训练数据集越大,训练出来的模型准确率越高。然而,当训练数据多达一亿以上时,每次迭代都需要对上亿个样本求和。利用传统的梯度下降法时,计算量将会变得相当大,因此需要更好的计算方法。2.随机梯度下降 随机梯度下降是传统梯度下降法的改进,其具体改进方面如下:1.打乱所有数据2.用下列流程更新参数,这个流程的意义是分别便遍历所有的数据,每个数据都会修改参数原创 2021-06-29 21:05:13 · 224 阅读 · 0 评论 -
14.推荐系统
文章目录1.基于内容的推荐算法2.协同过滤3.低秩矩阵分解4.规范化总结1.基于内容的推荐算法 如图所示,现在我们知道每部电影的参数以及4个观众对于部分电影的评价分数,现在我们需要预测这些观众对没有评价的电影的评分。 一种办法是给每一个观众计算出一个参数向量θ\thetaθ,再用参数向量的转置乘以电影的参数求出预测评分。 图为参数向量的代价函数和递推式。其中θ\thetaθ是观众的参数向量而xxx是电影的参数向量。因为我们有观众对于其他电影的评分,将这些数据作为训练集,再采用梯度下降的方法原创 2021-06-29 11:24:16 · 135 阅读 · 0 评论 -
13.异常检测
文章目录1.异常数据2.高斯分布3.使用异常检测还是监督学习4.多元高斯分布总结1.异常数据 如图所示,将所有样本点绘制在坐标中,如果有一个数据点离其他数据太远,那这个数据就是异常数据。异常数据是在统计时因为某些偶然情况出现的。异常数据对于模型训练有不好的影响,因此我们需要一种找出异常点的算法。 一种简单的方法使确立一个阈值和中心点,当一个数据点离中心点的距离超过阈值时,可以认为这个数据点是异常数据。2.高斯分布 使用高斯分布来异常检测。高斯分布函数: 使用高斯分布检测的原理就是原创 2021-06-28 23:02:02 · 161 阅读 · 0 评论 -
12.降维
文章目录1.降维2.PCA算法3.低维空间选择4.PCA的具体用法总结1.降维 第二种学习的无监督算法叫做降维。降维的作用有几个,比如说数据压缩,使数据占用更少的内存空间,有时还能给算法提速。 如图所示就是一种降维的实例,它将一片二维空间中的实例用一条直线近似代表,最后将一片二维数据近似为一维直线上的数据。 三维降到二维2.PCA算法 目前,最常用的算法是主成分分析法(Principal Componet Analysis, PCA)。 以二维为例说明P原创 2021-06-28 20:19:29 · 159 阅读 · 0 评论 -
11.无监督学习
文章目录前言1.Kmeans 算法2.选择聚类数总结前言 从本章开始进入学习如何处理无监督学习问题。由第一章可得知,无监督学习的特征就是有数据无标签。因此,我们可以设计一个算法,将这堆数据分成不同的几类,这种算法就是聚类算法,它是无监督学习算法的其中一种类型。1.Kmeans 算法 Kmeans算法是最常见的聚类算法,这个算法由三个步骤完成。1.初始化 首先要选择常数k作为聚类的类数,然后随机指定k个样本点,将这些样本点作为聚类中心点。2.计算代价函数 代价函数如图所示,这个函数的原创 2021-06-28 11:33:02 · 122 阅读 · 0 评论 -
10.支持向量机
文章目录前言1.支持向量机的代价函数2.大间隔分类器3.大间隔分类器的数学原理4.核函数5.支持向量机与logistics回归的对比总结前言 1.支持向量机的代价函数 支持向量机的代价函数如图所示,与logistics回归的代价函数相比有两个不同。 首先是这个cost函数,这个函数与对应的sigmoid函数不同的地方在于,它是一条斜线与直线的组合,如图中的紫线所示。这样导致的结果是假设函数h(θ)在大于等于1为正样本或小于等于-1时为负样本。这相当于嵌入了一个额外的安全因子。 其次是原创 2021-06-27 22:12:10 · 513 阅读 · 0 评论 -
9.机器学习系统设计
文章目录1、混淆矩阵与各种指数总结1、混淆矩阵与各种指数 在机器学习中,有多种衡量模型准确的指数,具体如下。1.混淆矩阵预测为负预测为正真实为负TNFP真实为正FNTP2.精准率(precision)精准率指预测为正例的预测结果里正确个数。3.召回率总结提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。...原创 2021-06-26 21:45:36 · 303 阅读 · 1 评论 -
8.应用机器学习的建议
文章目录1、评估假设2、模型选择3、偏差和方差4、学习曲线总结 在训练模型时,有时训练出来的模型会有不理想的地方,为了解决这个问题,有一些可以采用的办法:(1)增加训练样本;(2)减少多余的特征;(3)添加有用的特征;(4)改变多项式形式;(5)尝试改变正则化参数的值。 但具体要用哪个办法,就需要分析了。1、评估假设 为了检查模型的问题,我们可以将训练数据分成两部分,一部分称为训练集,另一部分称为测试集。一般来说以7:3为比例分离。 对于模型的评估有以下几步:首先是利用训练集训原创 2021-06-26 20:04:48 · 132 阅读 · 0 评论 -
7.神经网络反向传播
文章目录1、神经网络反向传播的作用2、神经网络反向传播的流程3、梯度检测4、随机初始化总结1、神经网络反向传播的作用 在上一节中学到的输入通过隐藏层汇总计算最后到输出层的流程是神经网络的正向传播。这个流程用于一个完整的模型通过输入预测输出时使用。但对于一个不完美的模型,正向传播是难以更新参数完善模型的,因此就需要神经网络反向传播。 神经网络优化过程与前面学习到的梯度下降算法思想是一致的,他通过使代价函数不断向着代价值减少的方向前进来优化模型。与梯度下降不同的地方主要在于代价函数与参数的关系。2原创 2021-06-25 22:56:01 · 1914 阅读 · 0 评论 -
6.神经网络学习
文章目录1、神经网络是什么?2、多元分类总结1、神经网络是什么? 神经网络起源于生物学中的神经原,一般在机器学习里研究的神经网络被称为人工神经网络,与生物神经网络区分开来。 一个简单的神经网络模型如图所示,其中,这个模型分为三层,第一层是输入层,最后一层是输出层,中间的都是隐藏层。每一层都有一个偏置神经元,这个偏置神经元发挥了常数的作用。中间链接的黑线是输入通道,每个神经元通过输入通道输入到下一个神经元。从第二层开始,每一个神经元都有一个计算函数,从前一层神经元通往这里的数据都会汇总计算,并输原创 2021-06-24 00:39:10 · 279 阅读 · 0 评论 -
5.正则化
文章目录1、过拟合2、正则项总结1、过拟合 当函数在训练的过程中,可能因为各种原因(比如说特征参数过多)使得函数曲线过度拟合数据集。这种情况会导致得到的优化模型在训练集上的表现良好,但在测试集上的表现很差。从图像上来看,过拟合的函数图像常常是一条过分曲折的曲线。2、正则项 解决过拟合的办法有不少,比如说减少冗余的特征参数就是一种办法。另一种办法是调整每个参数对整个假设函数的影响。 通常我们不知道是那个特征量导致函数出现过拟合,因此我们可以对每一个参数进行调整,具体的办法是在代价函数后面添加原创 2021-06-23 00:16:27 · 129 阅读 · 0 评论 -
4.logistics回归
文章目录1、logistics回归2、多元分类总结1、logistics回归 在处理分类问题时,使用线性回归难以将数据分好。如图,一个远处的样本点会大幅度影响线性回归曲线的走向,导致分类不准确。 因此要寻找一种适合分类的模型,比如logistics回归。这个方法用到了sigmoid函数,如图所示: 当z趋于0+时,g(z)趋于1,当z趋于0-时,g(z)趋于0。这样就可以将数据区分为小于0和大于0两份。 但仅有这样一个分类函数是不够的,我们还需要一个完整的函数将两种数据分开,在分类流程中原创 2021-06-22 00:00:30 · 803 阅读 · 0 评论 -
3.多变量线性回归
文章目录1.多元函数的梯度下降2.特征缩放3.学习率选择4.正规方程总结1.多元函数的梯度下降参数说明:假设函数: 可以看出,假设函数是由参数与特征值依次相乘得来的,这可以看成是参数向量与特征向量的相乘。参数迭代方式流程与二元梯度下降完全相同。2.特征缩放 为了保证参数平稳迭代,可以使用特征缩放的方法,将所有特征量统一到一个范围内,使数据标准化。 缩放方法有多种,比如说将每个特征值除以其取值范围就是其中一种缩放方法,这样得到的每一个样本值都会统一到(0,1)范围内。 此外原创 2021-06-21 16:29:49 · 148 阅读 · 0 评论 -
2.机器学习模型与梯度下降法
文章目录模型描述1.模型参数说明2.假设函数与代价函数梯度下降法总结模型描述1.模型参数说明参数说明m样本数量x输入变量y输出变量h假设函数j代价函数Θ代价函数参数2.假设函数与代价函数 假设函数就是假设一个函数,使其代表数据的分布。假设函数可以作为一种模型。 代价函数常用于评估模型。为了达到优化目标,我们将代价函数作为工具使用。比如说线性回归模型的假设函数与代价函数。假设函数:对应的代价函数: 代价函数的纵坐标原创 2021-06-20 16:37:53 · 189 阅读 · 0 评论 -
1.机器学习绪论
文章目录绪论1.机器学习的定义2.监督学习与无监督学习总结绪论1.机器学习的定义 机器学习可以定义为:一个程序在经验E中学习,解决某一个任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。 比如说,一个下棋的机器学习程序,其任务T就是下棋并赢得比赛,经验E就是程序内的模拟对战,性能度量P就是利用某种方法赢得比赛的概率。程序通过成千上万的模拟对战,统计各种方法赢得比赛的概率,最终在比赛中利用高胜率的方法赢得比赛。2.监督学习与无监督学习 机器学习主要分为监督学习与无监督学习两原创 2021-06-20 16:26:09 · 93 阅读 · 0 评论