1机器学习基础—2统计学习方法概论

最新推荐文章于 2025-03-22 18:42:49 发布

原创最新推荐文章于 2025-03-22 18:42:49 发布 · 336 阅读

0 ·

CC 4.0 BY-SA版权

《机器学习实战》+《统计学习方法》专栏收录该内容

2 篇文章

订阅专栏

本文介绍了机器学习的基础概念，包括监督学习与无监督学习的区别，以及它们的应用场景。详细解释了分类与回归的任务特点，并对统计学习方法进行了概述，涵盖了模型选择策略和常用的学习算法。

一、机器学习基础

1.监督学习一般使用两种类型的目标变量：标称型和数值型。

在分类算法中目标变量的类型通常是标称型的，而在回归算法中通常是连续性的。

2.分类和回归都属于监督学习。分类是将实例数据划分到合适的分类中，回归主要用于预测数值型数据。

与监督学习相对应的是无监督学习，此时数据没有类别信息，也不会给定目标值。在无监督学习中，将数据集合分成由类似的对象组成的多个类的过程被称为聚类；将寻找描述数据统计值的过程称之为密度估计。此外，无监督学习还可以减少数据特征的维度，以便我们可以使用二维或三维图形更加直观地展示数据信息。

3.numpy函数库基础

rand()函数构造随机数组；mat()函数可以将数组转化为矩阵。

二、统计学习方法概论+感知机

1.统计学习总的目标就是考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时也要考虑尽可能地提高学习效率。

2.统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

3.监督学习下统计学习的方法可以概括如下：从给定的、有限的、用于学习的训练数据集合出发，假设数据是独立同分布产生的；并且假设要学习的模型属于某个函数的集合，称为假设空间；应用某个评价准则，从假设空间种选取一个最优的模型，使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测；最优模型的选取由算法实现。

这样，统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法，称其为统计学习方法的三要素，简称为模型、策略和算法。

（1）模型：统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数；

称由决策函数表示的模型为非概率模型，由条件概率表示的模型为概率模型。

（2）策略：统计学习的目标在于从假设空间中选取最优模型。

损失函数（代价函数）与风险函数（期望损失）：损失函数度量模型一次预测的好坏；风险函数度量平均意义下模型预测的好坏。

（3）

4.输入变量X和输出变量Y有不同的类型，可以是连续的，也可以是离散的。人们根据输入、输出变量的不同类型，对预测任务给予不同的名称：

输入变量与输出变量均为连续变量的预测问题称为回归问题；

输出变量为有限个离散变量的预测问题称为分类问题；

输入变量与输出变量均为变量序列的预测问题称为标注问题。

5.监督学习分为学习和预测两个过程，由学习系统与预测系统完成。

6.两种常用的模型选择方法：正则化与交叉验证。

7.监督学习方法可以分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型。

直接对问题进行求解，比如二类分类问题，不管是感知器算法还是逻辑斯谛回归算法，都是在解空间中寻找一条直线从而把两种类别的样例分开，对于新的样例只要判断在直线的哪一侧即可，这种直接对问题求解的方法可以称为判别学习方法。判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。判别方法关心的是对给定的输入X，应该预测什么样的输出Y，典型的判别模型包括：k-近邻法、感知机、决策树、逻辑斯谛回归模型，最大熵模型，支持向量机，提升方法和条件随机场等。

而生成学习算法则是对两个类别分别进行建模，比如分别计算两类肿瘤是否扩散的概率，计算肿瘤大小大于某个值的概率等等；再比如狗与大象的分类，分别对狗与大象建模，比如计算体重大于某个值的概率，鼻子长度大于某个值的概率。生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：P(Y|X)=P(X,Y)/P(X)，这样的方法之所以称为生成模型，是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有：朴素贝叶斯法和隐马尔可夫模型。形式化的说，判别学习方法是直接对 p(y|x)进行建模或者直接学习输入空间到输出空间的映射关系，其中，x 是某类样例的特征，y 是某类样例的分类标记。而生成学习方法是对 p(x|y)（条件概率）和 p(y)（先验概率）进行建模，然后按照贝叶斯法则求出后验概率 p(y|x)。

8.习题