
机器学习
文章平均质量分 95
大彤小忆
永远不要停下前进的脚步^o^
展开
-
吴恩达机器学习系列内容汇总
学习机器学习过程中的一些经验与方法吴恩达机器学习(一)—— 简介吴恩达机器学习(二)—— 线性回归吴恩达机器学习(三)—— ex1:Linear Regression(MATLAB+Python)吴恩达机器学习(四)—— Logisitic回归吴恩达机器学习(五)—— 正则化吴恩达机器学习(六)—— ex2:Logistic Regression(MATLAB+Python)吴恩达机器学习(七)—— 神经网络:Representation吴恩达机器学习(八)—— ex3:Multi-cla.原创 2021-04-17 18:36:05 · 12468 阅读 · 7 评论 -
学习机器学习过程中的一些经验与方法
近年来,随着数据的爆炸式增长和计算能力的成倍提高,人工智能发展的越来越迅猛,而说到人工智能必然要了解机器学习。 入门机器学习,我使用的资料主要是吴恩达老师的《机器学习》课程视频以及相对应的programming exercise编程练习。学完之后,我觉得吴恩达老师课程视频的内容整体来说比较基础,易于理解和掌握,很适合新原创 2020-05-09 20:08:32 · 1878 阅读 · 1 评论 -
吴恩达机器学习(二十三)—— 应用实例:图片文字识别
1. 问题描述和流水线2. 滑动窗口3. 获取大量数据:人工数据合成4. 上限分析:流水线的哪个模块最有改进价值 学习图片文字识别的应用实例要做的事情:展示一个复杂的机器学习系统是如何组合起来的;介绍机器学习流水线(machine learning pipeline)的有关概念以及如何分配资源来对下一步的计划作决定;通过介绍photo OCR(photo Optical Charater Recognition 照片光学字符识别)问题,明白如何将机器学习应用到计算机视觉中及人工数据合成的概念。.原创 2021-04-17 18:13:53 · 5074 阅读 · 3 评论 -
吴恩达机器学习(二十二)—— 大规模机器学习
1. 大型数据集的学习2. 随机梯度下降3. 小批量梯度下降4. 随机梯度下降收敛5. 在线学习6. 映射化简和数据并行1. 大型数据集的学习 " It’s not who has the best algorithm that wins. It’s who has the most data. " 所以说,要想得到一个高效的机器学习系统的最好方式之一,就是用一个低偏差的学习算法,然后用很多数据来训练它。 但是用很大的数据集也有自己的问题,特别是计算量的问题。假设训练集大小为m=100,000.原创 2021-04-17 12:22:58 · 3478 阅读 · 0 评论 -
吴恩达机器学习(二十一)—— ex8:Anomaly Detection and Recommender Systems (MATLAB + Python)
一、异常检测1.1高斯分布1.2 估计高斯参数1.3选择阈值εεε1.4 高维数据集二、推荐系统2.1 电影评分数据集2.2 协同滤波学习算法2.2.1 协同滤波代价函数2.2.2 协同滤波梯度 本次练习对应的基础知识总结→\rightarrow→异常检测和推荐系统。 本次练习对应的文档说明和提供的MATLAB代码→\rightarrow→ 提取码:7g7b 。一、异常检测 在本练习中,我们将实现异常检测算法以检测服务器计算机中的异常行为。该特征测量每个服务器的响应的吞吐量(mb/s)和响.原创 2021-04-16 16:05:25 · 4010 阅读 · 0 评论 -
吴恩达机器学习(二十)—— 推荐系统
1. 问题规划2. 基于内容的推荐算法3. 协同过滤4. 协同过滤算法5. 向量化:低秩矩阵分解6. 均值归一化1. 问题规划 推荐系统是机器学习中的一个重要应用。 在机器学习中,针对一些问题,有算法可以为系统自动学习一套好的特征。因此,不要试图手动设计,但手写代码是我们目前为止常干的事情。有一些设置,我们可以有一个算法,仅仅学习其使用的特征,推荐系统就是类型设置的一个例子。 电影预测评分的例子如下。假使我们是一个电影供应商,现在有5部电影和4个用户,要求用户为电影打分。 从上表所给信.原创 2021-04-12 12:12:52 · 3970 阅读 · 0 评论 -
吴恩达机器学习(十九)—— 异常检测
1. 问题的动机2. 高斯分布3. 算法4. 开发和评价异常检测系统5. 异常检测与监督学习对比6. 选择特征7. 多元高斯分布8. 使用多元高斯分布进行异常检测1. 问题的动机 异常检测是机器学习算法的一个常见应用,这种算法的一个有趣之处在于:它虽然主要用于非监督学习,但从某些角度来看,又类似于一些监督学习问题。 一个异常检测的例子:假想作为一个飞机引擎制造商,当我们生产的飞机引擎从生产线上流出时,我们需要进行QA(质量控制测试),而作为这个测试的一部分,我们测量了飞机引擎的一些.原创 2021-04-04 18:24:49 · 4189 阅读 · 0 评论 -
吴恩达机器学习(十八)—— ex7:K-means Clustering and Principal Component Analysis (MATLAB + Python)
一、K-means聚类1.1 实现K-means1.1.1 找到最近的聚类中心1.1.2 计算聚类中心均值1.2 K-means用于样本数据集1.3 随机初始化1.4 使用K-means进行图像压缩1.4.1 K-means用于像素1.5 可选练习:使用自己的图像二、主成分分析2.1 样本数据集2.2 实现PCA2.3 用PCA减少维数2.3.1 将数据投影到主成分上2.3.2 重建数据的近似值2.3.3 可视化投影2.4 面部图像数据集2.4.1 PCA用于面部2.4.2 减少维度2.5可选练习:PCA.原创 2021-03-31 15:53:15 · 4598 阅读 · 3 评论 -
吴恩达机器学习(十七)—— 降维
1. 动机1:数据压缩2. 动机2:数据可视化3. 主成分分析问题规划4. 主成分分析算法5. 重建压缩表示6. 主成分数量的选择7. 应用PCA的建议1. 动机1:数据压缩 数据压缩不仅能对数据进行压缩,使得数据占用较少的内存或硬盘空间,还能让我们对学习算法进行加速。 假使我们要采用两种不同的仪器来测量一些东西的尺寸,其中一个仪器测量结果x1x_{1}x1的单位是厘米,另一个仪器测量的结果x2x_{2}x2是英寸,我们希望将测量的结果作为我们机器学习的特征,如下图所示。现在的问题的是,两种.原创 2021-03-27 11:40:29 · 3897 阅读 · 0 评论 -
吴恩达机器学习(十六)—— 聚类
1. 无监督学习:简介2. K-均值算法3. 优化目标4. 随机初始化1. 无监督学习:简介 在典型的监督学习中,我们有一个有标签的训练集,目标是找到能够区分正样本和负样本的决策边界。与此不同的是,在无监督学习中,我们需要将一系列无标签的训练数据输入到一个算法中,然后让这个算法为我们找到训练数据的内在结构。下图中的无标签数据集看起来可以分成两个分开的点集(称为簇),能够划分这些点集的算法,就被称为聚类算法。有监督学习有标签数据集:{(x(1),y(1)),(x(2),y(2)),(x(3),y.原创 2021-03-25 23:12:43 · 3917 阅读 · 0 评论 -
吴恩达机器学习(十五)—— ex6:Support Vector Machines(MATLAB+Python)
一、支持向量机1.1 样本数据集11.2 带有高斯核的SVM1.2.1 高斯核1.2.2 样本数据集21.2.3 样本数据集3二、垃圾邮件分类2.1 预处理电子邮件2.1.1 预处理电子邮件2.2 从电子邮件中提取特征2.3 训练SVM用于垃圾邮件分类2.4 垃圾邮件的主要预测因素2.5 可选练习:尝试自己的电子邮件2.6 可选练习:构建自己的数据集 本次练习对应的基础知识总结→\rightarrow→SVM。 本次练习对应的文档说明和提供的MATLAB代码→\rightarrow→ 提取码:4.原创 2021-03-24 11:32:24 · 7785 阅读 · 0 评论 -
吴恩达机器学习(十四)—— 支持向量机
1. 优化目标2. 大间距的直观理解3. 大间距分类器背后的数学原理4. 核函数5. 使用支持向量机1. 优化目标 与Logistic回归和神经网络相比,支持向量机(SVM)在学习复杂的非线性方程时提供了一种更为清晰、更加强大的方式。 接下来,我们从Logistic回归开始展示我们如何一点一点修改来得到本质上的支持向量机。 Logistic回归模型的假设函数是hθ(x)=g(θTx)=11+e−θTxh_{\theta }(x)=g(\theta ^{T}x)=\frac{1}{1+e^{-.原创 2021-03-12 16:51:08 · 4058 阅读 · 0 评论 -
吴恩达机器学习(十三)—— ex5:Regularized Linear Regression and Bias v.s. Variance(MATLAB+Python)
一、线性回归的正则化1.1 可视化数据集1.2 正则化线性回归的代价函数1.3 线性回归梯度的正则化1.4 拟合线性回归二、偏差和方差2.1 学习曲线三、多项式回归3.1 学习多项式回归3.2 可选练习:调整正则化参数3.3 使用交叉验证集选择λλλ3.4 可选的练习:计算测试集误差3.5 可选的练习:使用随机选择的样本绘制学习曲线 本次练习对应的基础知识总结→\rightarrow→线性回归、正则化、应用机器学习的建议和机器学习系统的设计。 本次练习对应的文档说明和提供的MATLAB代码→\ri.原创 2020-10-22 16:59:19 · 2513 阅读 · 0 评论 -
吴恩达机器学习(十二)—— 机器学习系统的设计
1. 优先处理的工作:垃圾邮件分类例子2. 误差分析3. 偏斜类的误差度量4. 查准率和查全率之间的权衡1. 优先处理的工作:垃圾邮件分类例子 在实际的工作过程中,我们应该明白哪些事情要优先处理,接下来我们以一个垃圾邮件分类器算法为例子进行讨论。为了解决这样一个问题,我们首先要做的决定是如何选择并表达特征向量xxx。我们可以选择一个由100个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否在邮件中出现来获得我们的特征向量(出现为1,不出现为0),尺寸为100×1。 在实际应用中,我们会在训练.原创 2020-10-20 20:59:16 · 1788 阅读 · 0 评论 -
吴恩达机器学习(十一)—— 应用机器学习的建议
1. 决定下一步做什么2. 评估假设函数3. 模型选择和训练、验证、测试集4. 诊断偏差和方差5. 正则化和偏差/方差6. 学习曲线7. 决定下一步做什么1. 决定下一步做什么 假如我们在开发一个机器学习系统,或者想试着改进一个机器学习系统的性能,那么我们该如何决定接下来选择那条道路呢? 看一个例子,假设我们已经实现了预测房价的正则化线性回归,也就是最小化代价函数的值,但是当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,我们下一步可以做什么?使用更多的训练样本:通过电话调查或上.原创 2020-10-17 12:16:16 · 1827 阅读 · 1 评论 -
吴恩达机器学习(十)—— ex4:Neural Networks Learning(MATLAB+Python)
一、神经网络1.1 可视化数据1.2 模型表示1.3 前馈和代价函数1.4 正则化代价函数二、反向传播2.1 Sigmoid梯度2.2 随机初始化2.3 反向传播2.4 梯度检验2.5 正则化神经网络2.6 使用fmincg学习参数三、可视化隐藏层 本次练习对应的基础知识总结→\rightarrow→ 神经网络:Learning。 本次练习对应的文档说明和提供的MATLAB代码→\rightarrow→ 提取码:12eo 。一、神经网络 在练习ex3中,我们实现了神经网络的前馈传播,并使用.原创 2020-09-30 21:39:35 · 2844 阅读 · 0 评论 -
吴恩达机器学习(九)—— 神经网络:Learning
1. 代价函数2. 反向传播算法3. 反向传播算法的直观理解4. 实现注意:展开参数5. 梯度下降6. 随机初始化7. 综合起来8. 自动驾驶 神经网络是当下最强大的学习算法之一。接下来讨论一个能在给定训练集时为神经网络拟合参数的学习算法。1. 代价函数 神经网络在分类问题中的应用:图1 神经网络模型 首先引入一些标记方法:假设神经网络的训练样本有mmm个,每个包含一组输入xxx和一组输出信号yyy,LLL表示神经网络层数,SlS_{l}Sl表示第lll层的单元数即神经元的数量(不包含第.原创 2020-09-27 17:27:10 · 2146 阅读 · 3 评论 -
如何将机器学习模型的正确率从 80%提高到 90%以上?
改进机器学习模型的五大技巧 1. 缺失值处理2. 特征工程3. 特征选择4. 集成学习算法5. 超参数调整 如果你已经完成了自己的一些数据科学项目,那么现在你可能已经意识到,达到 80% 的正确率还不错,并不是很糟糕!但在现实中, 80% 的正确率是无法满足要求的。事实上,在我工作过的大多数公司,都希望最低正确率至少要达到 90%(或他们正在关注的任何指标)。 因此,为了显著提高你的正确率,我们将讨论可以通过掌握哪五个技巧来改进我们的机器学习模型。读完本文后,我们应该会明白,在决定机器学习模型的性能转载 2020-09-14 11:18:15 · 2372 阅读 · 0 评论 -
吴恩达机器学习(八)—— ex3:Multi-class Classification and Neural Networks(MATLAB+Python)
一、多类别分类1.1 数据集1.2 可视化数据1.3 向量化Logistic回归1.3.1 向量化代价函数1.3.2 向量化梯度1.3.3 向量化Logistic回归的正则化1.4 一对多分类1.4.1 一对多预测二、神经网络2.1 模型表示2.2 前馈传播和预测三、Python实现 本次练习对应的文档说明和提供的MATLAB代码→\rightarrow→ 提取码:mwww 。一、多类别分类 在本练习中,我们将使用Logistic回归和神经网络识别手写数字(从0到9)。如今自动手写数字识别已广.原创 2020-09-13 12:07:06 · 2576 阅读 · 0 评论 -
吴恩达机器学习(七)—— 神经网络:Representation
神经网络:表述1. 非线性假设2. 神经元和大脑3. 模型表示I4. 模型表示II5. 多类别分类神经网络:表述 神经网络最初是一个生物学的概念,一般是指大脑神经元、触点、细胞等组成的网络,用于产生意识,帮助生物思考和行动,后来人工智能受神经网络的启发,发展出了人工神经网络。 人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算.原创 2020-09-11 22:27:32 · 2924 阅读 · 0 评论 -
吴恩达机器学习(六)—— ex2:Logistic Regression(MATLAB+Python)
一、Logistic回归 本次练习对应的文档说明和提供的MATLAB代码→\rightarrow→ 提取码:iuvr 。一、Logistic回归 在本部分练习中,我们将建立一个Logistic回归模型,以预测学生是否被大学录取。假设你是大学部门的管理员,并且您想根据每位申请人的两次考试成绩来确定他们的录取机会。您拥有以前申请人的历史数据.原创 2020-09-06 20:02:56 · 2305 阅读 · 0 评论 -
吴恩达机器学习(五)—— 正则化
正则化1. 过拟合的问题2. 代价函数3. 线性回归的正则化4. Logistic回归的正则化正则化 机器学习中的正则化是一种为了减小测试误差的行为。我们在搭建机器学习模型时,最终目的是让模型在面对新数据的时候,可以有很好的表现。当用比较复杂的模型(比如神经网络)去拟合数据时,很容易出现过拟合现象,这会导致模型的泛化能力下降,这时候我们就需要使用正则化,降低模型的复杂度,从而改变模型的拟合度。1. 过拟合的.原创 2020-09-06 16:10:27 · 1862 阅读 · 0 评论 -
吴恩达机器学习(四)—— Logisitic回归
一级目录1. 分类问题2. 假设表示3. 决策边界4. 代价函数5. 假设表示三级目录一级目录 Logistic回归又称Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。1. 分类问题 我们讨论的是要预测的变量y是一个离散值情况下的分类问题。 &nb.原创 2020-09-04 11:20:23 · 2226 阅读 · 1 评论 -
吴恩达机器学习(三)—— ex1:Linear Regression(MATLAB+Python)
一、单变量线性回归1.1 绘制数据1.2 梯度下降1.2.1 更新公式1.2.2 实现1.2.3 计算代价J(θ)J(θ)J(θ)1.2.4 梯度下降1.3 可视化J(θ)J(θ)J(θ)二、多变量线性回归2.1 特征归一化2.2 梯度下降2.3 正规方程三、Python实现 本次练习对应的文档说明和提供的MATLAB代码→\rightarrow→ 提取码:wg3s 。一、单变量线性回归 &nbs.原创 2020-09-03 12:02:23 · 5764 阅读 · 0 评论 -
吴恩达机器学习(二)—— 线性回归
一、单变量线性回归1.1监督学习算法工作流程1.2线性回归模型表示1.3代价函数1.4梯度下降1.5梯度下降的线性回归二、多变量线性回归2.1多维特征2.2多变量梯度下降2.2.1特征缩放2.2.2学习率2.3特征和多项式回归2.4正规方程一、单变量线性回归 单变量线性回归(Univariate linear regression)又称一元线性回归(Linear regression with one var.原创 2020-07-03 23:01:35 · 4018 阅读 · 1 评论 -
吴恩达机器学习(一)—— 简介
机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。例如,让机器人整齐有序的打扫房子,怎样去实现? 我们要做的是让机器人观察我们完成任务的过程,从而从中学习。人工智能、机器学习、深度学习、神经网络之间的关系:人工智能(Artificial Intelligen..原创 2020-05-10 09:55:13 · 2808 阅读 · 0 评论