学习机器学习第一天——认识基本概念

Doctor.Y

于 2024-09-12 14:06:45 发布

阅读量1.2k

点赞数 6

文章标签：算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhao_long_/article/details/142171698

版权

基本概念

学习类型

监督学习（Supervised Learning）：在这种类型的学习中，算法通过一组已知的输入-输出对（称为训练数据）来学习映射函数。常见的监督学习任务包括分类和回归。
非监督学习（Unsupervised Learning）：这里算法试图从未标记的数据中发现模式或结构。主要任务包括聚类、降维和密度估计。
半监督学习（Semi-supervised Learning）：介于监督和非监督之间，使用少量标签数据和大量无标签数据进行学习。
强化学习（Reinforcement Learning）：算法（或智能体）通过与环境交互来学习如何采取行动以最大化某种累积奖励。

数据集

训练集（Training Set）：用来训练模型的数据集合。
验证集（Validation Set）：用于调整模型的超参数和防止过拟合的数据集。
测试集（Test Set）：用来评估模型最终性能的数据集。

特征与标签

特征（Features）：输入数据中的属性或变量，是模型用来进行预测或分类的信息。
标签（Labels）：在监督学习中，期望的输出或结果，即模型需要预测的目标值。

模型

模型（Model）：机器学习算法创建的一种抽象表示形式，用于对新数据做出预测。
参数（Parameters）：模型内部可调节的部分，通过训练过程进行优化，如线性回归中的斜率和截距。
超参数（Hyperparameters）：模型外部设置的参数，影响模型的学习过程，如学习率、批次大小等。

评估指标

准确率（Accuracy）：正确预测的样本数占总样本数的比例。
精确率（Precision）：所有被预测为正类的样本中真正为正类的比例。
召回率（Recall）：所有实际为正类的样本中被正确预测为正类的比例。
F1分数（F1 Score）：精确率和召回率的调和平均数，用于衡量模型的综合性能。
均方误差（Mean Squared Error, MSE）：用于回归任务，测量预测值与真实值之间的差距。
混淆矩阵（Confusion Matrix）：一种表格布局，用于可视化分类模型的性能。

优化

损失函数（Loss Function）：衡量模型预测值与实际值之间差异的函数。
梯度下降（Gradient Descent）：一种常用的优化算法，通过最小化损失函数来更新模型参数。
正则化（Regularization）：一种技术，通过在损失函数中添加惩罚项来减少模型复杂度，防止过拟合。

其他概念

特征工程（Feature Engineering）：选择、提取或转换原始数据中的特征，以改善模型性能。
交叉验证（Cross Validation）：一种评估模型泛化能力的方法，通过将数据分为若干部分轮流训练和验证模型。
过拟合（Overfitting）：模型在训练数据上表现得很好，但在新数据上表现差。

算法与模型

线性模型（Linear Models）：如线性回归（Linear Regression）和逻辑回归（Logistic Regression）。
决策树（Decision Trees）：基于特征值的条件判断来进行分类或回归。
集成方法（Ensemble Methods）：如随机森林（Random Forests）、梯度提升树（Gradient Boosting Machines）等，通过组合多个弱学习器来形成强学习器。
支持向量机（Support Vector Machines, SVM）：寻找最优边界来区分不同类别的数据点。
人工神经网络（Artificial Neural Networks, ANN）：模仿生物神经元结构的模型，常用于深度学习。
深度学习（Deep Learning）：利用深层神经网络进行学习，包括卷积神经网络（CNN）、循环神经网络（RNN）等。

数据预处理

标准化（Normalization）：将数据缩放到相同的尺度，例如0到1之间。
归一化（Standardization）：将数据转换为均值为0、标准差为1的标准正态分布。
缺失值处理（Missing Value Handling）：填充缺失值或删除含有缺失值的样本。
特征选择（Feature Selection）：选择最有影响力的特征以减少维度。
特征提取（Feature Extraction）：如主成分分析（PCA）、独立成分分析（ICA）等技术，用于降低数据维度。

应用领域

自然语言处理（NLP）：如情感分析、文本分类、机器翻译等。
计算机视觉（CV）：如图像分类、物体检测、人脸识别等。
推荐系统（Recommendation Systems）：基于用户行为预测用户可能感兴趣的内容。
时间序列分析（Time Series Analysis）：如股票市场预测、天气预报等。

模型评估与选择

模型评估（Model Evaluation）：除了基本的性能指标外，还包括A/B测试、成本敏感分析等。
模型选择（Model Selection）：基于交叉验证结果和其他指标来选择最佳模型。
模型部署（Model Deployment）：将训练好的模型应用于实际生产环境中的过程。

持续学习与适应

在线学习（Online Learning）：允许模型在接收新数据时实时更新。
迁移学习（Transfer Learning）：将从一个任务中学到的知识应用到另一个相关任务中。
终身学习（Lifelong Learning）：让模型能够在不同任务间持续学习而不忘记先前学到的知识。

深度学习

卷积神经网络（Convolutional Neural Networks, CNN）：专门用于处理具有网格结构的数据，如图像。
循环神经网络（Recurrent Neural Networks, RNN）：处理序列数据，如时间序列分析和自然语言处理。
长短时记忆网络（Long Short-Term Memory Networks, LSTM）：一种特殊的RNN，擅长处理长期依赖问题。
Transformer模型：一种基于自注意力机制的模型，在处理自然语言处理任务时表现出色。
生成对抗网络（Generative Adversarial Networks, GANs）：由生成器和判别器组成的模型，用于生成逼真的数据样本。

强化学习

马尔可夫决策过程（Markov Decision Processes, MDPs）：描述了在不确定环境下做出决策的问题。
Q-learning：一种基于价值的强化学习方法，通过学习动作-价值函数来指导决策。
策略梯度方法（Policy Gradients）：直接优化策略函数的参数，适用于连续动作空间。
Deep Q-Networks (DQN)：结合了深度学习和Q-learning，适用于高维输入状态空间。

数据增强

图像数据增强（Image Data Augmentation）：通过对图像进行旋转、缩放、裁剪等操作来增加训练数据的多样性。
文本数据增强（Text Data Augmentation）：通过同义词替换、句子重写等方式来丰富文本数据。

自动机器学习（AutoML）

自动特征工程（Auto Feature Engineering）：自动化地生成和选择特征。
自动模型选择与超参数优化（Auto Model Selection & Hyperparameter Optimization）：自动选择最佳模型和调整超参数。
Neural Architecture Search (NAS)：自动搜索最优神经网络结构。

机器学习与大数据

分布式机器学习（Distributed Machine Learning）：在多台机器上并行处理大规模数据集。
流式数据处理（Stream Processing）：实时处理连续不断的数据流。

机器学习中的挑战

数据不平衡（Class Imbalance）：类别数量分布不均的情况。
冷启动问题（Cold Start Problem）：新用户或新产品缺乏历史数据。
在线学习（Online Learning）：模型需要实时更新以应对不断变化的数据。

数据处理

1. 数据清洗（Data Cleaning）

数据清洗旨在纠正或删除错误、不完整、不准确或无关的数据记录。常见的数据清洗方法包括：

处理缺失值：删除含有缺失值的记录、填充缺失值（如使用均值、中位数或众数填充）、使用插值方法填充。
异常值检测：识别并处理异常值，如使用箱线图、Z-Score、IQR（四分位数间距）等方法。
去重：删除重复的记录。
格式统一：确保数据格式的一致性，如日期格式、货币单位等。

2. 特征工程（Feature Engineering）

特征工程是通过选择、创建和转换特征来提高模型性能的过程。主要包括：

特征选择：从原始数据中挑选出最具信息量的特征。
特征构造：创建新的特征，如从现有特征中衍生新的特征。
特征转换：对特征进行转换，如对数变换、平方根变换等，以改善特征分布。
特征降维：通过主成分分析（PCA）、独立成分分析（ICA）等方法减少特征数量。

3. 数据转换（Data Transformation）

数据转换是对原始数据进行某种形式的变换，以使其更适合后续的分析或建模。常见的数据转换方法包括：

归一化（Normalization）：将数据缩放到指定范围内，如0到1之间。
标准化（Standardization）：将数据转换为均值为0、标准差为1的标准正态分布。
平滑（Smoothing）：通过滤波等技术减少数据噪声。
编码（Encoding）：将分类变量转化为数值型表示，如独热编码（One-Hot Encoding）、标签编码（Label Encoding）等。

4. 数据集成（Data Integration）

数据集成是指将来自不同来源的数据合并成一致的数据集。这包括：

数据融合：将多个数据源的数据合并在一起。
解决冲突：处理数据合并过程中可能出现的冲突，如重复记录、不一致的值等。

5. 数据离散化（Data Discretization）

数据离散化是将连续型数据转换为离散型数据的过程。这有助于简化数据表示，减少模型复杂度。常见的离散化方法包括：

等宽离散化（Equal-Width Binning）：将数据区间分为宽度相等的区间。
等频离散化（Equal-Frequency Binning）：将数据分为包含相同数量观测值的区间。
基于聚类的离散化：使用聚类算法将数据分组。

6. 时间序列处理

对于时间序列数据，需要特别处理以捕捉时间依赖性。常见的方法包括：

差分（Differencing）：通过对时间序列进行差分操作去除趋势和季节性。
移动平均（Moving Average）：计算一段时间内的平均值以平滑数据。
分解（Decomposition）：将时间序列分解为趋势、季节性和随机成分。

7. 文本数据处理

对于文本数据，需要进行预处理以提取有意义的特征。常见的文本处理方法包括：

分词（Tokenization）：将文本分割成单词或短语。
去除停用词（Stop Word Removal）：删除不携带信息量的词汇。
词干提取（Stemming）：将词汇还原为其词干形式。
词形还原（Lemmatization）：将词汇还原为其基本形式。
词袋模型（Bag-of-Words）：将文本转换为词频向量。
TF-IDF（Term Frequency-Inverse Document Frequency）：衡量词汇的重要性。

8. 图像数据处理

对于图像数据，处理方法通常包括：

图像增强（Image Augmentation）：通过旋转、缩放、翻转等方式增加数据多样性。
尺寸调整（Resizing）：调整图像大小以适应模型输入要求。
归一化（Normalization）：对图像像素值进行归一化处理。
颜色空间转换：如RGB转灰度图或HSV颜色空间转换。

9.数据采样

欠采样（Under-sampling）：减少多数类样本的数量以平衡数据集。
过采样（Over-sampling）：增加少数类样本的数量，如SMOTE算法。
混合采样：结合欠采样和过采样的方法。

10.数据划分

将数据集划分为训练集、验证集和测试集，以便评估模型的性能和泛化能力。

高斯处理

“高斯处理”是一个涵盖多种图像处理和信号处理技术的术语，通常涉及使用高斯函数（Gaussian function）进行操作。高斯处理在图像处理、计算机视觉、信号处理等领域中有广泛的应用。以下是一些常见的高斯处理技术及其应用场景：

1. 高斯滤波（Gaussian Filtering）

高斯滤波是一种经典的图像处理技术，用于平滑图像并减少噪声。通过使用高斯函数作为卷积核，对图像进行卷积操作，可以有效地去除图像中的高斯噪声，并保留图像的主要特征。

应用：

图像去噪：减少图像中的噪声。
图像平滑：使图像更加平滑，减少细节。
边缘检测预处理：为后续的边缘检测算法（如Sobel算子、Canny边缘检测）做准备。

2. 高斯模糊（Gaussian Blur）

高斯模糊是高斯滤波的一种应用，主要用于图像的平滑处理。通过高斯模糊，可以减少图像中的高频噪声，使图像看起来更加柔和。

应用：

图像美化：使图像更加柔和，减少细节。
视觉效果：用于模拟镜头模糊效果。
预处理：为后续图像处理步骤（如边缘检测）做准备。

3. 高斯金字塔（Gaussian Pyramid）

高斯金字塔是一种多尺度图像表示方法，通过多次应用高斯滤波并下采样，生成一系列不同分辨率的图像。这些图像可用于尺度不变特征检测、图像配准等任务。

应用：

尺度不变特征检测：如SIFT（Scale-Invariant Feature Transform）算法。
图像配准：通过不同分辨率的图像进行匹配。
图像压缩：通过多尺度表示减少存储需求。

4. 高斯混合模型（Gaussian Mixture Model, GMM）

高斯混合模型是一种概率模型，用于表示由多个高斯分布组成的混合分布。在图像处理中，GMM可以用于图像分割、背景建模等任务。

应用：

图像分割：通过混合高斯模型来识别不同的图像区域。
背景建模：用于视频监控中的背景/前景分离。
聚类：将数据点分配给不同的高斯分布。

5. 高斯过程（Gaussian Process, GP）

高斯过程是一种用于回归和分类的概率模型，它定义了一个概率分布，其中任意有限个点的联合分布是高斯分布。在图像处理中，高斯过程可以用于图像重建、图像插值等任务。

应用：

图像重建：通过高斯过程来估计缺失的像素值。
图像插值：填补图像中的空白区域。
不确定性量化：用于估计预测的不确定性。

6. 高斯贝叶斯分类器（Gaussian Naive Bayes Classifier）

高斯贝叶斯分类器是一种基于高斯分布的概率分类器，假设每个特征的概率分布是高斯分布。在图像处理中，可以用于图像分类任务。

应用：

图像分类：识别图像中的对象类别。
模式识别：用于手写识别、人脸识别等任务。

博客等级

码龄5年

27
原创

184
点赞

198
收藏

99
粉丝

关注

私信

热门文章

分类专栏

qt 1篇

展开全部收起

最新评论

常用命令使用
Chanc3llor: 又全又好
面向对象编程
优快云-Ada助手: 推荐 Java 技能树：https://edu.youkuaiyun.com/skill/java?utm_source=AI_act_java
linux系统配置域名解析
优快云-Ada助手: 恭喜您撰写了第12篇博客！标题“linux系统配置域名解析”听起来非常有趣。您的博客内容一定对那些希望在Linux系统中进行域名解析的读者非常有帮助。我鼓励您继续坚持创作，因为您的经验和知识对于像我这样的读者来说非常宝贵。未来，您可以考虑分享一些与域名解析相关的高级技巧或者深入探讨其他Linux系统配置方面的话题。谢谢您的分享，期待您的下一篇博客！
Linux安装windows字体
优快云-Ada助手: 恭喜您写了第13篇博客！您的主题选择很实用，对于很多Linux用户来说，安装Windows字体是一个常见需求。您的文章内容是否包含了详细的步骤和注意事项呢？如果是的话，我相信这篇博客对于许多人来说会非常有帮助。接下来，我建议您可以继续探索其他与Linux相关的主题，例如优化系统性能、安装常用软件等等。感谢您的辛勤创作，期待您的下一篇博客！
Linux禁用内核更新
优快云-Ada助手: 恭喜您写了第14篇博客！标题“Linux禁用内核更新”听起来很有趣。您对Linux内核的研究和探索让我很感兴趣。您的博客一直以来都给读者带来了很多有价值的知识和见解。鉴于您对Linux内核的深入了解，我建议您在未来的创作中可以考虑探讨一些关于内核更新的优势和劣势，以及如何在不禁用内核更新的情况下解决可能出现的问题。这样，读者可以更全面地了解到内核更新的重要性，并学习到如何有效地管理和调整内核更新。再次恭喜您的持续创作，并期待您未来更多精彩的博客！谢谢您与我们分享您的知识和经验。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。