- 博客(15)
- 收藏
- 关注
原创 吃瓜教程5——西瓜书第六章
给定线性可分数据集X,支持向量机模型希望求得数据集X关于超平面的几何间隔达到最大的那个超平面,然后套上一个sign函数实现分类功能其本质和感知机一样,仍然是在求一个超平面。注意:几何间隔最大的超开面就是“距离正负样本都最远的超平面”,理由如下:当超平面没有正确划分正负样本时:几何间隔最小的为误分类点,因此<0当超平面正确划分超平面时:≥0,且越靠近中央越大。
2023-08-05 22:57:39
233
1
原创 吃瓜教程4——神经网络(西瓜书第5章)
由于像感知机这种单个神经元分类能力有限,只能分类线性可分的数据集,对于线性不可分的数据集则无能为力,但是多个神经元构成的神经网络能够分类线性不可分的数据集(西瓜书上异或问题的那个例子),且有理论证明了通甬近似定理):只需一个包含足够多神经元的隐层,多层前馈网络(最经典的神经网络之一)就能以任意精度逼近任意复杂度的连续函数。给定一个线性可分的数据集T,感知机的学习目标是求得能对数据集T中的正负样本完全正确划分的超平面,其中。为样本的特征向量,是感知机模型的输入,,对任意一个误分类样本。是感知机模型的参数,
2023-08-02 23:35:12
226
原创 吃瓜教程3——决策树(西瓜书第四章)
信息增益原则对可能取值数目较多的属性有所偏好(例如“编号”这个较为极端的例子,不过其本是原因不是取值数目过多,而是每个区之里面所包含的样本量太少),为减少这种偏好可能带来的不利影响,C4.5决策树选择使用“增益率”代替“信息增益",增益率定义为。将样本类别标记y视作随机变量,各个类别在样本集合D中的占比pk(k = 1,2,...|y|)视作各个类别取值的概率,则样本集合D(随机变量y)的信息熵(底数b去2)为。在已知属性a的取值后y的不确定性减少的量,也即纯度的提升。以信息增益为准则来划分属性的决策树。
2023-07-31 00:13:27
361
1
原创 吃瓜教程2——线性回归(西瓜书第3章)
为便于讨论,我们把w和b吸收入向量形式=(w;b),相应的,把数据集D表示为一个m×(d+1)大小的矩阵X,其中每行对应于一个示例,该行前d个元素对应于示例的d个属性值,最后一个元素恒置为1,即。给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数。再把标记也写成向量形式y=(y1;f(xi)=wTxi+b,使得f(xi)yi。步骤:对w求导,对b求导,导数为零为最优解。
2023-07-28 00:26:12
160
1
原创 吃瓜教程1--概念准备
学习过程中的基础思想:归纳:从特殊到一般的”泛化“;演绎:由基础原理推演到各种情况;归纳学习:广义指从样例中学习,狭义指从训练数据中学得概念:概念学习、概念形成;学习过程可以看作在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,有许多搜索策略对假设空间进行搜索,如自顶向下、从一般到特殊等,最终获得与训练集一致的假设;概念:版本空间:与训练集一致的假设集合。
2023-07-21 23:44:44
494
1
原创 Datawhale 10月学习-Free excel 学习笔记--excel函数3--FILTER,SUMIF,SUBTOTAL
excel中函数FILTER,SUMIF,SUBTOTAL
2022-10-24 23:28:51
1175
原创 Datawhale 10月学习-Free excel 学习笔记--excel函数2.VLOOKUP/XLOOKUP函数
excel-VLOOKUP函数
2022-10-21 21:55:22
199
原创 Datawhale 10月学习-Free excel 学习笔记1--数据的获取
Excel学习笔记1--了解Excel和如何从文件及网页获取数据
2022-10-11 12:08:18
1956
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人