
机器学习
文章平均质量分 75
快剑青衣
这个作者很懒,什么都没留下…
展开
-
logistic回归
线性回归不适合分类而logistic回归是分类的算法之一~logistic函数(或称为sigmode函数),表达形式为: 函数图像如下: 决策边界: ...原创 2018-06-03 18:50:30 · 295 阅读 · 0 评论 -
统计学习方法笔记-概述
小知识点:法向量:垂直于平面的直线所表示的向量为该平面的法向量法向量一般是方程的系数,比如:Ax+By+Cz+d = 0,那么法向量就是(A,B,C)证明如下:一、范数:L0范数:向量中非0元素的个数L1范数:向量中各元素的绝对值之和L2范数:向量中各元素的平方和然后求平方根二、经验风险与结构化风险:经验风险:在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式就可以确定,经验风险最小化...原创 2018-06-03 20:32:21 · 433 阅读 · 0 评论 -
统计学习方法笔记-感知机
感知机是二类分类的线性模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值,属于判别模型。分为原始形式和对偶形式。是神经网络与支持向量机的基础。 由输入空间到输出空间的如下函数:f(x) = sign(w·x + b) 称为感知机. 其中,w和b为感知机模型参数,叫做权值或权值向量,叫做偏置,sign是符号函数,即感知机模型的假设空间是定义在特征空间中的所有线性分...原创 2018-06-03 20:36:42 · 404 阅读 · 0 评论 -
统计学习方法笔记-K近邻法
k近邻法是一种基本分类与回归方法,这儿只讨论分类问题中的k近邻法。k近邻法输入为实例的特征向量,输出为实例的类别,可以取多类。 K近邻算法简介: 给定一个训练数据集,对新输入的实例,在训练数据集中找到与其最近邻的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。算法: 1、根据给定的距离度量,在训练集中找出实例x最邻近的k个实例,涵盖这k个实例的x的领域记作...原创 2018-06-03 20:45:45 · 385 阅读 · 0 评论 -
统计学习方法笔记-朴素贝叶斯法
简介: 朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y,朴素贝叶斯法实现简单,学习和预测效率都很高,是一种常用的方法。朴素贝叶斯法的学习与分类基本方法: X是定义在输入空间上的随机变量,Y是定义在输出空间上的随机变量。P(X,Y)...原创 2018-06-03 20:50:48 · 366 阅读 · 0 评论 -
统计学习方法笔记-决策树模型
简介: 决策树是一种基本的分类与回归方法。下面的笔记主要记录用于分类的决策树。决策树模型呈树形结构,在分类中,表示基于特征对实例进行分类的过程。其主要优点是:模型具有可读性,分类速度快。学习时利用训练数据,根据损失函数最小化原则建立决策树模型。决策树学习通常包括三个步骤:特征选择、决策树的生成、决策树的修剪。决策树模型与学习决策树模型: 分类决策树模型是一种描述对实例进行分类的树形结构...原创 2018-06-03 21:04:00 · 3202 阅读 · 0 评论 -
统计学习方法笔记-逻辑斯谛回归与最大熵模型
逻辑斯谛回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。逻辑斯谛回归模型逻辑斯谛分布: 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列的分布函数和密度函数: 式中,μ为位置参数,γ>0为形状参数 逻辑斯谛分布...原创 2018-06-04 11:47:30 · 726 阅读 · 0 评论 -
统计学习笔记-提升方法
简介: 在分类问题中,他通过改变训练数据的权重,学习多个分类器,并将这些分类器线性组合,提高分类的性能。 提升方法AdaBoost算法Adaboost提升方法的基本思路: 1、提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值加大而受到后一轮的弱分类器更大的关注。 2、AdaBoost采取加权多数表决...原创 2018-06-04 15:39:07 · 340 阅读 · 0 评论 -
正则化
过拟合:我们使用太多的变量去学习一个过度复杂的模型,此模型过度配合训练数据,几乎完全适合(或者完全适合)所有训练数据(损失函数几乎为0),导致不能泛化的预测实际数据如下图:例子如下:还有一种情况就是使用太多的特征,然后数据却不是远大于特征数,那么也会产生过拟合,解决办法如下:1、减小模型复杂度 选主要的特征保留,去掉高的多项式(减少模型复杂度) 去掉的特征有可能也会少部分影响预测2、正...原创 2018-06-04 20:56:47 · 285 阅读 · 0 评论