统计机器学习基础知识

LaoYuanPython

已于 2024-08-31 16:41:34 修改

阅读量2.1k

点赞数 14

CC 4.0 BY-SA版权

分类专栏：零基础机器学习入门老猿Python 文章标签：机器学习人工智能神经网络

于 2024-08-31 11:07:43 首次发布

本文链接：https://blog.youkuaiyun.com/laoyuanpython/article/details/140664732

老猿Python 同时被 2 个专栏收录

1147 篇文章

订阅专栏

零基础机器学习入门

14 篇文章

订阅专栏

在这里插入图片描述

一、统计机器学习定义

统计机器学习（Statistical Machine Learning）又称为统计学习（Statistical Learning），是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，具有独自的理论体系与方法论。

严格来讲，统计机器学习是机器学习的一个分支，但由于统计机器学习在机器学习领域的地位，现在人们提及机器学习时，往往就是指统计机器学习。

二、统计学习的研究对象和目的

统计学习研究的对象是数据，它基于同类数据具有一定的统计规律性作为前提，即同类数据是独立同分布的，用随机变量描述数据中的特征，用概率分布描述数据的统计规律。

统计学习从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。因此统计学习用于对数据的预测与分析，特别是对未知新数据的预测与分析。

在统计学习中，对数据的预测与分析是通过构建概率统计模型来实现的。

三、统计学习方法及类型

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法，模型（Model）、策略（Strategy）和算法（Algorithm）为统计学习方法三要素。

模型是一个能够从数据中学习并做出预测或决策的算法或数学函数，用于表示输入到输出的映射，模型输入和输出所有可能的集合分别称为输入空间和输出空间。每个具体的输入是一个实例，通常有特征向量表示，所有特征向量存在的空间称为特征空间（Feature Space），特征空间的每一维对应一个特征。

模型定义在特征空间上，有时假设输入空间和特征空间为相同的空间，有时不同，不同时需要将输入空间映射到特征空间。

统计学习的方法可以概括为：

从给定的有限的用于学习的训练数据（Training Data）集合出发，假设数据是独立同分布产生的，并假设学习的模型属于某个函数的集合（称为假设空间，Hypothesis Space），应用某个评价准则（Evaluation Criterion）从假设空间中通过算法选取一个最优模型，使得它对已知的训练数据和未知的测试数据（Test Data）在给定的评价准则下有最优的预测。

统计学习可以分为几种主要类型：

监督学习：在监督学习中，模型从标记的训练数据中学习，以便预测未知数据的输出。例如，我们可以使用标记好的图像数据集训练一个图像分类模型，使其能够识别新的未标记图像中的物体。
监督学习的训练数据和测试数据由输入输出对组成，输入输出对称为样本（sample）或样本点。
监督学习中输入变量X和输出变量Y可以是连续的或离散的，X和Y都连续的预测问题称为回归问题，X为连续变量Y为离散变量的预测问题为分类问题，X和Y都为离散的预测问题为标注问题。
无监督学习：与监督学习不同，无监督学习中的模型在没有标记响应的情况下，从数据中学习模式或结构。例如，聚类算法就是一种无监督学习方法，它可以将数据集中的相似项分组在一起。
强化学习：强化学习是一种通过试错来学习的方法，模型通过与环境的交互来最大化累积奖励。这种方法在机器人控制、游戏AI等领域有广泛应用。

四、统计学习的过程步骤

数据收集：获取用于训练模型的有限数据集合。这些数据可以来自各种来源，如数据库、传感器、互联网等。
数据预处理：收集到的数据通常需要经过清洗、转换和格式化等预处理步骤，以便模型可以更好地学习
确定假设空间：确定包含所有可能的模型的假设空间，即学习的模型的集合；
老猿注：老猿理解模型为某种表达形式的函数，其表达式中除因变量、自变量外的其他内容因子（如系数、指数、常数等）为函数的参数，假设空间即表示函数参数所有可能取值组合形成的函数集合，在统计学习中，模型可以带有限固定参数（称为参数化模型）或不固定参数（称为非参数化模型），如线性假设空间是固定参数模型，是由所有不同a、b取值的线性函数y=ax+b构成的集合。
确定模型选择准则：模型的选择准则即模型的评价准则，也即学习策略；
学习算法：实现求解最优模型的算法，即学习的算法；
训练模型：使用数据训练选定的算法，以找到最佳参数确认模型结构，如线性模型中找到合适的a和b的值；
评估模型：使用独立的测试数据评估模型的性能，以确保模型在实际应用中具有良好的泛化能力；
参数调优：根据评估结果，对模型的参数进行调整和优化，以提高性能。
部署模型：将训练好的模型应用于实际问题中，实现自动化决策、预测等任务。