机器学习
文章平均质量分 51
鱼公主
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
聊聊用于特征处理的tsfresh
tsfresh闪亮登场了!tsfresh简介tsfresh是用于提取时序数据特征的Python包,可以自动计算大量的时序数据特征。可以自动从时序数据中提取100多个特征,包含多种特征提取方法和一种稳健的特征选择方法,还包含对于回归或分类任务时评估这些特征的重要方法。特点:tsfresh可自动计算大量时序特征,通过假设检验来讲特征消减到最能解释趋势的特征,然后使用这些特征集在时序数据上构造统计或机器学习模型。利用tsfresh提取的特征可用于描述或聚类时间序列,此外,用来建立模型,对时间序列执行分原创 2021-04-08 08:58:48 · 1937 阅读 · 0 评论 -
最小二乘支持向量机分类器(LSSVM)及Python实现
最小二乘支持向量机分类器1.支持向量机分类2.最小二乘支持向量机3.LSSVM的Python实现在这篇文章中,我们讨论支持向量机(SVM)分类器的最小二乘版本。由于公式中的相等类型约束。解是由解一组线性方程得出的。而不是经典的支持向量机的二次规划。本文针对两类分类问题,提出了支持向量机的最小二乘模型。对于函数估计问题,支持向量解释边缘回归。在(Saunders et al., 1998)中,它考虑了等式类型的约束,而不是经典的支持向量机方法中的不等式。在这里,我们也考虑了在最小二乘意义下的公式分类问题的原创 2020-12-31 11:23:56 · 16818 阅读 · 13 评论 -
最小二乘支持向量机的分析与改进及Python实现
WLSSVM最小二乘支持向量机1. LSSVM的简单理解2. WLSSVM3. WLSSVM的Python实现1. LSSVM的简单理解LSSVM通过训练数据学习回归方程,将自变量映射到更高维特征空间。LSSVM回归模型的优化思想是使离回归平面距离最大的样本与回归平面之间的距离最小。优化问题就转化为:因此,LSSVM回归模型输出为:LSSVM模型的缺点:缺少稀疏性,对于每一次预测都需要所有训练数据参与。因为LSSVM模型求解中的Lagrange乘子都是非零数值,只有当误差变量ei的分布符合原创 2020-12-31 11:48:49 · 3666 阅读 · 5 评论 -
机器学习笔记十五之图片文字识别
本节目录1 问题描述2 滑动窗口3 获取大量数据集和人工数据4 上限分析1 问题描述图像文字识别应用所作的事是,从一张给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂的多。为了完成这样的工作,需要采取如下步骤:1.文字侦测( Text detection) ——将图片上的文字与其他环境对象分离开来2.字符切分( Character segmentation) ——将文字分割成一个个单一的字符3.字符分类( Character classification) ——确定每一个字符是什么 可原创 2020-07-07 19:52:53 · 3822 阅读 · 0 评论 -
吴恩达机器学习笔记十四之大规模机器学习
本节目录1 大型数据集的学习2 随机梯度下降法3 小批量梯度下降4 随机梯度下降收敛5 在线学习6 映射化简和数据并行1 大型数据集的学习如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。我们应该怎样应对一个有 100 万条记录的训练集?以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的误差的平方和,如果我们的学习算法需要有 20 次迭代,这便已经是非常大的计算代价。首先应该做的事是去检查一个这么大规模的训练集是否真的必要,也许我们只用 1000个训练集也能获得较原创 2020-07-07 19:34:35 · 318 阅读 · 0 评论 -
吴恩达机器学习笔记十三之推荐系统
本节目录1 问题形式化2 基于内容的推荐系统3 协同过滤 4 向量化:低秩矩阵分解5 推行工作上的细节:原创 2020-07-06 17:40:58 · 362 阅读 · 0 评论 -
机器学习笔记十二之异常检测
本节目录1 问题的动机2 高斯分布3 开发和评价一个异常检测系统4 异常监测与监督学习对比5 选择特征6 多元高斯分布7 多元高斯分布进行异常检测1 问题的动机 我们先看下什么是异常检测? 假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行QA(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。这样一来,你就有了一个数据集,从????(1)到????(????),如果你生产了????个引原创 2020-07-06 17:16:09 · 2449 阅读 · 2 评论 -
机器学习笔记十一之降维
本节目录:1 数据压缩2 数据可视化3 主成分分析4 重建的压缩表示1 数据压缩第二种监督学习问题为降维。有几个不同的原因使你可能想要做降维,一是数据压缩 ,它允许我们使用较少的计算机内存或磁盘空间,加快我们的学习算法。对直升飞机做一个调查或做这些不同飞行员的测试——你可能有一个特征:????1,这也许是他们的技能(直升机飞行员),也许????2可能是飞行员的爱好。这是表示他们是否喜欢飞行,也许这两个特征将高度相关。你真正关心的可能是这条红线的方向,不同的特征,决定飞行员的能力。将数原创 2020-07-04 20:19:25 · 562 阅读 · 0 评论 -
机器学习笔记十之聚类
本节目录:无监督学习K-均值聚类优化目标随机初始化选择聚类树1 无监督学习无监督学习,即让计算机学习无标签数据。上边的一系列点,没有任何标签信息,我们需要的是找到一个算法,让它为我们找找这个数据的内在结构,以上图数据为例,也就是把他们分成两个分开的点集。这个能够找到圈出这些点集的算法 就是聚类算法。无监督学习算法用于市场分割、社交网络分析等。2.K-均值聚类算法该算法接受一个未标记的数据集,然后将数据聚类成不同组。K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其原创 2020-07-03 19:06:17 · 245 阅读 · 0 评论 -
机器学习笔记九之支持向量机
本节目录:1 优化目标2 大边界的理解3 大间距分类器4 核函数5 使用支持向量机1.优化目标大量数据在应用算法时,表现情况往往依赖于操作水平,比如 算法设计特征量的选择、如何选择正则化参数等。逻辑回归中的假设函数服从这样的规律: 如果有一个y=1的样本,我们希望ℎ????(????) 趋 近 1。因为我们想要正确地将此样本分类,这就意味着当 ℎ????(????)趋近于 1 时,???????????? 应当远大于 0。这是因为由于 ???? 表示 ????????????,当原创 2020-07-02 17:27:40 · 484 阅读 · 0 评论 -
机器学习笔记八之机器学习系统设计
本节目录:1 如何选择并表达特征向量2 误差分析3 类偏斜的误差度量4 查准率和查全率之间的权衡5 机器学习的数据1如何选择并表达特征向量选择一个由 100 个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否有在邮件中出现,来获得我们的特征向量(出现为 1,不出现为 0),尺寸为 100×1。为了构建这个分类器算法,我们可以做很多事,例如:收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本基于邮件的路由信息开发一系列复杂的特征基于邮件的正文信息开发一系列复杂的特征,包括考原创 2020-07-01 21:08:08 · 434 阅读 · 0 评论 -
机器学习笔记七之机器学习诊断
本节目录:评估假设模型选择和交叉验证诊断偏差和方差正则化和偏差/方差学习曲线 小结假设我们需要用一个线性模型来预测房价,当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,下一步可以做什么?改进机器学习性能的方法:尝试减少特征的数量尝试获得更多的特征尝试增加多项式特征尝试减少正则化程度尝试增加正则化程度具体使用时,我们应该运用一些机器学习诊断法帮助我们了解哪些算法是有效的。上述方法称为 机器学习诊断法 。诊断法的意思是,这是一种测试法,你通过执行这种测试,能够深入了原创 2020-06-30 11:47:16 · 547 阅读 · 0 评论 -
机器学习笔记六之神经网络的学习
本节目录:代价函数反向传播算法把矩阵展开成向量梯度检验随机初始化1 代价函数假设神经网络的训练样本有????个,每个包含一组输入????和一组输出信号????,????表示神经网络层数,????????表示每层的 neuron 个数(????????表示输出层神经元个数),????????代表最后一层中处理单元的个数。将神经网络的分类定义为两种情况:二类分类和多类分类,二类分类:???????? = 0, ???? = 0 ???????? 1表示哪一类;????类分类:????原创 2020-06-30 11:07:13 · 282 阅读 · 1 评论 -
吴恩达机器学习笔记五之神经网络
本节目录:1.非线性假设2. 神经元和大脑3. 模型表示4. 特征的直观理解5. 样本的直观理解6. 多类分类1 非线性假设假设我们希望训练一个模型来识别视觉对象(例如识别一张图片上是否是一辆汽车),我们怎样才能这么做呢?一种方法是我们利用很多汽车的图片和很多非汽车的图片,然后利用这些图片上一个个像素的值(饱和度或亮度)来作为特征。假如我们只选用灰度图片,每个像素则只有一个值(而非 RGB 值),我们可以选取图片上的两个不同位置上的两个像素,然后训练一个逻辑回归算法利用这两个像素的值原创 2020-06-28 21:21:34 · 342 阅读 · 0 评论 -
吴恩达机器学习笔记四之正则化
本节目录过拟合代价函数正则化线性回归正则化逻辑回归1 过拟合问题原创 2020-06-27 17:33:18 · 247 阅读 · 0 评论 -
吴恩达机器学习笔记三之逻辑回归
本节目录:分类问题假说表示判定边界代价函数高级优化多类别分类1.分类问题在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈。如果我们要用线性回归算法来解决一个分类问题,对于分类, ???? 取值为 0 或者 1,但如果你使用的是线性回归,那么假设函数的输出值可能远大于 1,或者远小于 0,即使所有训练样本的标签 ???? 都等于 0 或 1。尽管我们知道标签应该取值 0 或者 1,原创 2020-06-26 21:16:19 · 329 阅读 · 0 评论 -
吴恩达机器学习笔记二之多变量线性回归
本节目录:多维特征多变量梯度下降特征缩放学习率正规方程1.多维特征含有多个变量的模型,模型中的特征为(x1,x2,…xn),比如对房价模型增加多个特征这里,n代表特征的数量,x(i)代表第i个训练实例,是特征矩阵中的第i行,是一个向量。2 多变量梯度下降多变量线性回归中,代价函数是所有建模误差的平方和,即:我们开始随机选择一系列参数值,计算所有预测结果,再给所有参数一个新值,如此循环直到收敛。3 特征缩放面对多维特征问题的时候,我们要保证这些特征都具有相近的尺度原创 2020-06-25 15:52:17 · 345 阅读 · 0 评论 -
吴恩达机器学习笔记一
目录:机器学习监督学习无监督学习单变量线性回归代价函数梯度下降批量梯度下降1.机器学习含义机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。目标“让机器自己学习怎么来解决问题”由Tom Mitchell定义的机器学习是,一个好的学习问题或一个程序 认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能有所提升。经验E 就是原创 2020-06-24 20:33:26 · 1404 阅读 · 0 评论
分享