西瓜书
文章平均质量分 65
Checkmate9949
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【西瓜书阅读笔记】06支持向量机
零、Maximal margin classifier and Support Vector classifierhttps://www.youtube.com/watch?v=efR1C6CvhmEhttps://www.youtube.com/watch?v=efR1C6CvhmE一、间隔与支持向量:1、通过升维寻找使margin最大的threshold注意:该图表示三维空间,+对应y=1,-对应y=-1。2、用线性方程描述超平面:法向量w和位移b决定了该...原创 2021-10-28 14:55:49 · 362 阅读 · 0 评论 -
【西瓜书阅读笔记】05神经网络
一、神经元Neuron二、感知机Perceptron与多层网络原创 2021-10-17 21:30:33 · 535 阅读 · 0 评论 -
【西瓜书阅读笔记】04决策树 第二部分
一、CART算法回归树1、原理:根据阈值计算均方根误差之和,并选取均方差误差和最小的阈值:防止过度拟合:设定最小分割样本数https://www.youtube.com/watch?v=g9c66TUylZ4https://www.youtube.com/watch?v=g9c66TUylZ4https://www.youtube.com/watch?v=g9c66TUylZ42、公式:3、Sklearn是通过CART算法生成决策树二、剪枝处理-预剪枝...原创 2021-10-02 21:32:06 · 260 阅读 · 0 评论 -
【西瓜书阅读笔记】04决策树 第一部分
第四章 决策树1 基本流程2 划分选择随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。2.1 信息增益2.1.1 什么是信息熵https://www.zhihu.com/question/22178202什么是熵:一种事物的不确定性。信息:消除不确定性的事物。信息的功能:调整概率;排除干扰;确定情况(比如卖瓜的人说了一句,包熟包甜)。噪音:不能消除某人对某件事情不确定性的事物。数据 = 信息 + 噪音2.1.2原创 2021-10-02 19:33:47 · 384 阅读 · 0 评论 -
【西瓜书阅读笔记】03线性模型
一、基本形式1、问题描述2、函数形式3、向量形式二、线性回归1、问题描述2、目标函数3、目标函数求解原创 2021-09-11 21:09:00 · 373 阅读 · 0 评论 -
【西瓜书阅读笔记】02模型评估与选择:一个训练集多种算法 + 多种训练集一种算法
一、P-R曲线1、比较多个P-R曲线(1)ABC三个模型: B>C; A和B难以确定;(2)AB算法的比较1) 比较AB的面积,但难以测量;2) F1;3) F_beta;https://mp.youkuaiyun.com/mp_blog/creation/editor/119908246二、ROC与AUC1、ROC: Receiver Operating Characteristics(1) TPR: True positive rate(2) FPR: ..原创 2021-08-27 21:37:39 · 394 阅读 · 0 评论 -
【西瓜书阅读笔记】绪论
一、引言二、基本术语1、数据:数据集;样本;特征向量;属性(一个特征)2、模型:分类3. 假设空间4. 归纳偏好5. 发展历程1.6 应用现状1.7 阅读材料原创 2021-08-24 23:10:29 · 164 阅读 · 0 评论 -
【西瓜书阅读笔记】02模型评估与选择:测试集的性能在多大程度上保证真实的性能—比较检验
一、比较检验1、问题(1)测试集性能与真正的泛化性能未必一致(2)测试集不同反映的性能不同:多个测试集结果不同(3)机器学习算法本身有一定的随机性,同一个测试集上多次运行,可能会有不同的结果。2、数学基础B站:小元老师高数线代概率3、一个测试集一种算法(1)二项分布:假设真实世界错误率为,则测试集中错误率的概念分布应该为二项分布大致分布如图,其中峰顶对应横轴应为np,纵轴为错误率0.3。其中n为总样本数量。(2)假设检验1)置信区间:...原创 2021-09-09 16:39:58 · 445 阅读 · 0 评论 -
【西瓜书阅读笔记】02模型评估与选择:一个训练集一种算法
一、一个训练集一种算法1、经验误差与过拟合(1)error rates错误率: E=a/m(2)accuracy正确率= 1-E(3)(4)Overfitting and underfitting2、评估方法(1)泛化能力:测试集(2)Split dataset:留出法:from sklearn.model_selection import cross_val_score, train_test_split testing_classes) = train_.原创 2021-08-25 16:50:01 · 214 阅读 · 0 评论
分享