第一章
1. 机器学习概述
1.1 机器学习简史
起源:机器学习的概念最早可以追溯到20世纪初,但真正开始受到广泛关注并快速发展是在20世纪80年代以后。随着计算机技术的飞速进步和大数据时代的到来,机器学习逐渐成为人工智能领域的一个重要分支。
- 关键里程碑:
- 感知机(Perceptron):由Frank Rosenblatt在1957年提出,是第一个具有现代意 义的神经网络模型,标志着神经网络研究的开始。
- 决策树:作为一种直观的分类和回归方法,在机器学习领域有着广泛的应用基础。
- 支持向量机(SVM):由Vapnik等人在90年代提出,以其强大的分类能力和良好的泛化性能成为当时的研究热点。
- 深度学习:进入21世纪后,随着计算能力的提升和大数据的积累,深度学习(尤其是神经网络)取得了突破性进展,推动了图像识别、自然语言处理等领域的革命性变化。
- 感知机(Perceptron):由Frank Rosenblatt在1957年提出,是第一个具有现代意 义的神经网络模型,标志着神经网络研究的开始。
1.2 机器学习主要流派
- 监督学习:在训练过程中,每个输入样本都对应一个明确的输出标签,模型通过学习这些输入输出对之间的关系来预测新样本的输出。
- 无监督学习:输入样本没有明确的标签,模型需要自动发现数据中的隐藏结构或模式,如聚类分析、降维等。
- 半监督学习:结合了监督学习和无监督学习的特点,部分数据有标签,部分数据无标签,适用于标签获取成本较高的场景。
- 强化学习:通过让模型在环境中不断试错,根据反馈(奖励或惩罚)来优化其行为策略,以实现长期目标最大化。
2. 机器学习,人工智能和数据挖掘
2.1 什么是人工智能
人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它旨在使机器能够胜任一些通常需要人类智能才能完成的复杂工作,如理解自然语言、识别图像、进行决策等。
2.2 什么是数据挖掘
数据挖掘(Data Mining)是从大量数据中提取或“挖掘”出知识的过程,这些知识可以是模型、规则、趋势等,有助于人们更好地理解数据、预测未来或做出决策。数据挖掘通常涉及数据预处理、特征选择、模型构建和评估等多个步骤。
2.3 机器学习,人工智能和数据挖掘的关系
2.1.2 常见概率分布
2.1.3 参数估计
2.1.4 假设检验
2.1.5 线性回归
2.1.6 逻辑回归
通过本章的学习,我们掌握了机器学习中的基本统计分析方法,包括统计基础、常见概率分布、参数估计、假设检验、线性回归和逻辑回归等,为后续深入学习更复杂的机器学习算法打下了坚实的基础。
- 机器学习是人工智能的一个子集:机器学习是实现人工智能的一种重要手段,通过让计算机自动学习并改进其性能,从而模拟人类的智能行为。
- 数据挖掘与机器学习紧密相连:数据挖掘过程中经常需要用到机器学习技术来构建预测模型、发现数据中的隐藏模式等。同时,数据挖掘也为机器学习提供了丰富的数据源和实际应用场景。
- 三者相互促进:人工智能的快速发展推动了机器学习技术的不断创新,而机器学习技术的进步又促进了数据挖掘能力的提升,进而为人工智能的广泛应用提供了有力支持。三者之间形成了一个良性循环,共同推动着信息技术的发展。
第二章 机器学习基本方法
2.1 统计分析
统计分析是机器学习中的一项基础且重要的工具,它为理解和分析数据提供了系统的数学方法。以下是本章关于统计分析的关键内容。
2.1.1 统计基础
- 基本概念:介绍了统计学的基本概念,包括总体与样本、变量(连续变量与离散变量)、数据分布(集中趋势与离散程度)等。
- 统计量:学习了如何从样本数据中计算统计量,如均值、中位数、众数、方差、标准差等,以描述样本的特征。
- 离散分布:介绍了伯努利分布、二项分布、泊松分布等,这些分布描述了离散随机变量的可能取值及其概率。
- 连续分布:学习了正态分布、均匀分布、指数分布等连续随机变量的分布形式,以及它们的概率密度函数和性质。
- 点估计:讨论了如何通过样本数据来估计总体参数的单一值,如均值、方差的点估计。
- 区间估计:介绍了如何构建总体参数的置信区间,以一定的置信水平表达参数的可能取值范围。
- 基本思想:阐述了假设检验的基本框架,包括原假设与备择假设的设定、检验统计量的选择、拒绝域与接受域的划分等。
- 常见检验:学习了t检验、卡方检验、F检验等常见的假设检验方法,以及它们在不同场景下的应用。
- 模型定义:线性回归是一种用于预测一个或多个自变量(X)与因变量(Y)之间线性关系的统计方法。
- 参数估计:介绍了如何通过最小二乘法来估计线性回归模型的参数(斜率与截距),以及这些参数的统计意义。
- 模型评估:学习了如何评估线性回归模型的拟合效果,包括R平方、残差分析等方法。
- 模型背景:虽然名为“回归”,但逻辑回归实际上是一种分类算法,特别适用于二分类问题。
- 模型原理:通过Sigmoid函数将线性回归模型的输出映射到(0,1)区间,解释为属于某一类的概率。
- 参数估计与评估:讨论了逻辑回归模型的参数估计方法(通常通过最大似然估计),以及模型评估指标(如准确率、召回率、F1分数、ROC曲线等)。