周志华《机器学习》读书笔记
本专栏记录博主阅读南京大学周志华老师所著《机器学习》一书的读书笔记,主要是对书中经典算法的代码实现,希望与大家一起交流、共同学习,把概念学透,把代码写精!
da_kao_la
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
周志华《机器学习》Ch9. 聚类:k-means算法的python实现
理论k-means方法是一种常用的聚类方法,其目标是最小化其中是第i个簇的中心。直接优化上式有难度,故k-means算法采用一种近似方法。简单来说,k-means算法由两个步骤循环组成:1. 计算每个sample到各个簇中心的距离,将该sample的类标赋为距离最近的簇的类标;2. 按照sample的类标重新计算各个簇中心k-means算法有两个输入参数需要用户指定,一...原创 2018-09-20 19:16:23 · 2422 阅读 · 4 评论 -
周志华《机器学习》中的西瓜数据集
周志华《机器学习》一书中大量例题习题用到了“西瓜数据集3.0”和“西瓜数据集3.0a”,两个数据集的区别是“西瓜数据集3.0”有离散属性而“西瓜数据集3.0a”都是连续属性。生成这两个数据集的代码如下,运行代码即可生成python数据文件watermelon_3.0.npz和watermelon_3.0a.npz:write_dataset_watermelon3.py# -*- cod...原创 2018-09-13 17:30:13 · 10354 阅读 · 3 评论 -
周志华《机器学习》Ch8. 集成学习:AdaBoost的python实现
概述AdaBoost(Adaptive Boosting)是一种集成学习技术,可将弱学习器提升为强学习器。大致思路是:根据初始训练集训练出一个基学习器,再根据基学习器的表现调整训练样本的分布,使得该基学习器分错的样本权重提高,再根据新的分布训练下一个学习器;如此反复直到学习器的数量达到预先指定值T.算法推导针对上面的算法流程中的“6”和“7”进行推导指数损失函数AdaB...原创 2018-09-02 15:46:03 · 2578 阅读 · 2 评论 -
周志华《机器学习》Ch7. 贝叶斯分类器:朴素贝叶斯分类器的python实现
理论 记为类标,为输入,由贝叶斯公式,. 朴素贝叶斯分类器假设每个属性相互独立,. 对于所有类别来说,相同,因此朴素贝叶斯分类器对的类标判别. 令表示训练集中第类样本组成的集合,表示类别数,则类先验概率(拉普拉斯平滑)对于离散属性,令表示类标为、属性取值为的样本组成的集合,为第个属性的可能取值数,则类先验概率(拉普拉斯平滑)对于连续属性,假设服从正态分布,即,用概率密度表示...原创 2018-08-28 11:16:45 · 1927 阅读 · 0 评论 -
周志华《机器学习》Ch5. 神经网络:单隐层神经网络的python实现
理论 单隐层神经网络由于隐层的非线性激活函数(Sigmoid/tanh/ReLu),理论上可以近似任意非线性函数。单隐层神经网络输入层维度为d(等于输入向量的维度),隐层维度为q(人为指定,q的指定有一定经验性和技巧性),输出层维度为k(k为类别个数,输出k维向量用于近似k类的one-hot编码,特例是k==2时输出层维度为1)。神经网络的参数是各层神经元之间的连接权值和非输入层...原创 2018-08-25 15:01:14 · 1071 阅读 · 0 评论 -
周志华《机器学习》Ch3. 线性模型:对数几率回归的python实现
理论 “对数几率模型”就是常说的Logistic回归,是一个经典的线性模型。考虑二分类任务,其输出标记,而线性回归模型产生的预测值是连续分布的实数,需要一个阶跃函数将连续值映射为离散二值。用一个对数几率函数近似阶跃函数,得到。从而y和1-y可以分别视为类后验概率和,简记为和。 训练时,用极大似然法估计模型参数和. 对给定的数据集,对数几率模型最大化对数似然函数. 令,...原创 2018-08-21 15:18:39 · 3843 阅读 · 0 评论
分享