笔记《写给人类的机器学习 (Machine Learning for Humans)》

《写给人类的机器学习》笔记介绍了机器学习的基础概念和算法,涵盖监督学习的回归与分类,如线性回归、对数几率回归和SVM,非参数学习中的KNN和决策树,以及随机森林。此外,还概述了无监督学习的聚类和降维方法,如K均值和PCA。文章强调了理解不同算法在实际问题中的应用和局限性,如防止过拟合和选择合适的超参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先这是本介绍性的书,虽然有几个公式,但并没有深入地讲解各种算法,只是让读者对各个算法有个大概的认识,知道其大概的原理。
如果觉得看一些大部头的书有些晦涩难懂,不妨可以先翻翻这本书,让你对机器学习有个大概的浅显认识。


笔记《写给人类的机器学习》

Machine Learning for Humans

地址

目录

第1章:为什么机器学习重要
第2章:监督学习
…………回归
……………………线性回归
…………分类
……………………对率回归
……………………支持向量机
…………非参数学习机
……………………K最近邻(KNN)
……………………决策树
……………………随机森林
第3章:无监督学习
…………聚类
……………………K均值聚类
……………………层次聚类
…………降维
……………………主成分分析(PCA)
……………………奇异值分解(SVD)
第4章:神经网络和深度学习
第5章:强化学习
…………Q学习:学习动作-分值函数
…………策略学习:状态到动作的映射
…………DQN,A3C,和深度 RL 中的进展
第6章:最好的机器学习资源

第1章:为什么机器学习重要

人工智能
人工智能是智能体的研究,它可以感知周围世界,制定计划,并做出决策以实现其目标。其基础包括数学,逻辑,哲学,概率,语言学,神经科学和决策理论。许多领域都属于在 AI 下面,如计算机视觉,机器人,机器学习和自然语言处理。
机器学习
机器学习是人工智能的一个子领域。它的目标是让电脑自己学习。机器的学习算法使其能够识别观测数据中的规律,构建解释世界的模型,并且在没有明确的预编程规则和模型的情况下预测事物。

第2章:监督学习

2.1:回归

在监督学习的问题中,我们以一个数据集开始,它包含训练样本,每个样本带有关联的正确标签。例如,学习分类手写数字的时候,监督学习算法接受数千张手写体数字的图片,以及标签,它们包含每个图片表示的正确数字。算法会学习图像和关联的数值的关系。之后将学到的关系用于划分全新的图片(不带标签),机器从来没有见过它们。

  • 为展示监督学习的工作原理,我们看一个问题:根据某人完成的高等教育年数,来预测年收入。即要构建一个模型,它近似描述高等教育年数 x 和对应年收入 y 的关系 f
    y = f(x)+ϵ

    x:(输入)为高等教育的年数。
    y:(输出)为年收入。
    f:为描述 x 和 y 关系的函数。
    ϵ:(epsilon)为随机误差项(可正可负),均值为零。表示模型的残余误差,它是你算法的理论极限,由于你尝试解释的现象中存在固有噪声。
    监督学习的目标是,当获得 x 已知 y 未知的新样本时,尽可能准确地预测 y
监督学习的两个任务:回归和分类
回归:预测连续值
回归预测连续的目标变量 y,连续的意思是,在 y 可以取的值中,不存在间隔(不连续)
  • y = f(x) + ϵ ,其中 x = (x1, x2 … xn)
    训练:机器从带标签的训练数据习得 f
    测试:机器从不带标签的测试数据预测 y
    数据分为训练集和测试集。
    训练集拥有标签,你的模型可从这些带标签的样本中学习。
    测试集不带标签,你还不知道尝试预测的值。模型可推广到从未见过的情况,以便它在测试数据上表现良好。
线性回归(普通最小二乘)
首先,我们专注于使用线性回归解决收入预测问题。 我们拥有数据集 x ,及对应的目标值 y 。**普通最小二乘(OLS)**的目标是,习得一个线性模型,如果有一个未见过的 x ,可用它来预测对应的 y ,并误差尽可能小。即基于某个人的教育年数,猜测它的收入。 线性回归是个参数化方法,即它需作出 x 和 y 的函数形式的假设。我们的模型是个函数,使用特定的 x 预测 ŷ :
ŷ = β 01\*x+ϵ

我们假设 x 和 y 是线性关系。即对于每个 x 中的单位增长, y 的增长(或下降)不变。

我们的目标是,习得模型参数(这里是 β 0、β 1),使模型预测中的误差最小。 以图形的方式,在二维中,它会产生一条最佳拟合直线。在三维中可以画一个平面,高维中就是超平面。
![这里写图片描述](https://i.imgur.com/GSr75gt.png)
为寻找最佳的参数: 1. 定义一个成本函数,或损失函数,它度量我们的模型的预测有多么准确。 2. 寻找使损失最小的参数,也就是,使我们的模型尽可能准确。 在数学上,我们观察每个真实数据点( y )和我们的模型的预测( ŷ )之间的差。计算这些差的平方来避免负数,并惩罚较大的差,之后将它们相加并取平均。这度量了我们的数据有多么接近直线。
**成本函数(损失函数) Cost = n1((β1xi+β0)</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值