AI相关的知识总结（持续更新补充中）

原创已于 2025-05-15 21:50:49 修改 · 863 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #机器学习 #YOLO

于 2025-04-18 10:44:02 首次发布

一、内容概况

创作目的：全面梳理AI相关知识，提升自己在面试过程中的竞争力以及技术水平。

文章内容：包括机器学习、深度学习、CV、NLP、大模型、多模态等相关内容与面试内容。

二、主要内容

2.1 机器学习

2.1.1线性回归

通过拟合一个线性方程来建立特征和目标变量之间的关系。

2.1.2 逻辑回归

虽然名字中有“回归”，但主要用于分类问题。它通过逻辑函数（Sigmoid函数）将线性回归的输出映射到 (0,1) 区间，从而将问题转化为二分类问题。

2.1.3 支持向量机

从根节点开始，根据特征的某个阈值将数据划分为不同的子集，每个子集对应一个分支，不断递归划分，直到满足停止条件（如叶子节点的纯度达到一定程度或树的深度达到限制等）。常见的划分标准有信息增益、增益率和基尼指数等。

2.1.4 KNN

KNN算法的核心思想是“近朱者赤，近墨者黑”。对于一个新的数据点，算法会在训练数据集中找到与该数据点最接近的K个数据点（最近邻），然后根据这K个最近邻的数据点的信息来对新数据点进行预测

2.1.5 K-means

将数据划分为 K 个簇，使得簇内的数据点尽可能相似，而簇之间的数据点尽可能不同。首先随机选择 K 个数据点作为初始簇中心，然后将每个数据点分配到最近的簇中心所对应的簇中，接着重新计算每个簇的中心（簇内所有数据点的均值），不断迭代上述过程，直到簇中心不再变化或达到最大迭代次数。

2.1.6 决策树

决策树通过一系列的规则来对数据进行分类或回归。从根节点开始，根据特征的某个阈值将数据划分为不同的子集，每个子集对应一个分支，不断递归划分，直到满足停止条件（如叶子节点的纯度达到一定程度或树的深度达到限制等）。常见的划分标准有信息增益、增益率和基尼指数等。

2.1.7 随机森林

是一种基于决策树的集成学习方法。通过在训练数据中随机抽样（自助采样）和随机选择特征子集来构建多个决策树，然后将这些决策树的预测结果进行投票（分类问题）或平均（回归问题），得到最终的预测结果。这种方法可以有效地减少过拟合，提高模型的泛化能力。

2.1.8 GBDT

通过迭代训练多个弱学习器（通常是决策树），每一棵树都拟合前一棵树的残差，从而逐步优化模型性能。GBDT需要先对缺失值进行填充，对数据的预处理要求相对更高。

GBDT通过前向分布算法，每次迭代用基学习器拟合整个函数的最速下降方向，再求最小化当前损失的线性搜索步长，将得到的基学习器以及步长放入加性模型中得到本次迭代的模型，经过多次迭代后求和得到最终模型。

常用损失函数包括MSE（均方误差）、RMSE（均方根误差）、MAE（平均绝对误差）、Huber Loss（MAE和MSE结合）等，分类问题常用对数似然损失函数。

GBDT采用贪心算法选择特征，每次从候选特征集合中选择一个使分裂后收益函数增益最大的特征来分裂。通过不断拟合残差，即每次迭代用基学习器拟合前一次迭代的残差，逐步减少误差。

优点：预测阶段计算速度快，树与树之间可并行化计算；在分布稠密的数据集上，泛化能力和表达能力都很好；采用决策树作为弱分类器使得模型具有较好的解释性和鲁棒性。

缺点：在高维稀疏的数据集上表现不佳；训练过程需要串行训练，只能在决策树内部采用一些局部并行的手段提高训练速度。

2.1.9 XGBDT

在GBDT的基础上进行了改进，引入了正则化项（L1和L2正则化）来控制模型复杂度，防止过拟合。同时，XGBoost在目标函数中使用了二阶泰勒展开，使得优化更加精确。XGBoost能够自动处理缺失值，无需预先填充或删除，这使得它在处理实际问题中经常遇到的缺失数据时更加高效。

GBDT和XGBoost都是强大的机器学习算法，但XGBoost在执行速度、模型表现、特征处理等方面进行了大量优化，使其在处理大规模数据集和复杂问题时更具优势。如果数据量较大、特征复杂，或者对模型性能有较高要求，XGBoost通常是更好的选择。

优点：在模型表现、执行速度等方面进行了大量优化，通常优于GBDT；能够自动处理缺失值；支持列抽样和子采样。

缺点：模型相对复杂，参数较多，需要进行细致的调参。

2.1.10 神经网络

模仿生物神经元的结构和工作方式，由输入层、隐藏层和输出层组成。每个神经元对输入信号进行加权求和，然后通过激活函数（如 Sigmoid、ReLU 等）进行非线性变换，产生输出信号。通过反向传播算法来训练网络，即根据损失函数对网络参数进行梯度下降优化，使得模型的预测值与真实值之间的差异最小。

2.1.11 主成分分析

一种降维技术，通过线性变换将原始数据投影到新的坐标轴（主成分）上，使得投影后的数据在第一个主成分方向上的方差最大，表示了数据中最主要的变化趋势；在第二个主成分方向上的方差次之，且与第一个主成分正交，以此类推。通过选择前几个主成分来降低数据的维度，同时尽可能保留原始数据的信息。

2.2 深度学习

2.2.1 相关技术

2.2.1.1 损失函数

损失函数（Loss Function）是机器学习和深度学习中用于衡量模型预测值与真实值之间差异的函数。它在模型训练过程中通过优化损失函数来调整模型参数，使模型的预测结果更接近真实值。

均方误差：预测值与真实值之差的平方的平均值。

平均绝对误差：预测值与真实值之差的绝对值的平均值。

均方根误差：均方误差的平方根

交叉熵损失：衡量的是模型输出的概率分布与真实标签的概率分布之间的差异。

二分类：

多分类：

Focal Loss：对交叉熵损失的改进，主要用于解决类别不平衡问题。对易分类样本的权重降低，对难分类样本的权重增加，从而提高模型对少数类的识别能力。α 和 γ 是超参数，用于调整对易分类样本的权重。

2.2.1.2 模型参数优化算法

1. 梯度下降法：通过迭代更新模型参数，沿着损失函数的负梯度方向逐步逼近最小值。应用于机器学习模型的参数优化，如线性回归、逻辑回归等，尤其适用于损失函数可微且数据量较大的情况

2. 随机梯度下降法：每次迭代只使用一个样本来计算梯度，适合大规模数据集。常用于深度学习中，如训练大型神经网络，能够快速收敛，适合处理海量数据。

3. 动量法：引入动量项，加速梯度下降过程，减少震荡。在深度学习中用于加速模型训练，尤其在训练复杂的神经网络时效果显著。

4. Adam算法：整合了自适应学习率与动量项。在深度学习中应用广泛，适用于各种类型的神经网络，如卷积神经网络（CNN）和循环神经网络（RNN）。大模型也使用这个。

2.2.1.3 模型超参数优化算法

启发式优化算法：粒子群优化算法、遗传算法、模拟退火算法。

2.2.2 激活函数

激活函数是深度学习中神经网络的重要组成部分，它为神经网络引入非线性因素，使得神经网络可以学习和模拟更复杂的函数关系。

1. Sigmoid函数

公式：

作用：
- 将输入映射到(0,1)的范围内，可以将神经元的输出视为概率，因此常用于二分类问题的输出层。
- 由于其非线性特性，可以将多个神经元的线性组合转换为非线性关系，从而增强神经网络的表达能力。
缺点：
- 当输入值的绝对值较大时，梯度接近于0，容易出现梯度消失问题，导致训练过程收敛缓慢。
- 计算指数函数时计算量相对较大，效率较低。
- 输出不是以0为中心，这可能会导致后续层的输入数据分布不均衡，影响训练效果。

2. Tanh函数

公式：

作用：
- 和Sigmoid函数类似，可以引入非线性因素，使神经网络能够学习复杂的函数关系。
- 输出是以0为中心的，相比Sigmoid函数，可以更好地解决数据分布不均衡的问题，有助于加速训练过程。
缺点：
- 同样存在梯度消失问题，当输入值的绝对值较大时，梯度接近于0，影响训练的收敛速度。
- 计算过程涉及指数函数，计算量较大。

3. ReLU函数

公式：

作用：
- 在输入大于0时，梯度为1，不存在梯度消失问题，可以加速神经网络的训练过程。
- 计算简单，只需要进行一次阈值操作，相比Sigmoid和Tanh函数，计算效率更高。
- 能够使网络中的大部分神经元输出为0，具有稀疏激活的特性，可以减少模型的复杂度，提高模型的泛化能力。
缺点：
- 当输入小于0时，梯度为0，可能导致部分神经元“死亡”，即这些神经元在后续的训练过程中不再发挥作用，影响模型的性能。
- 输出不是以0为中心，可能会导致后续层的输入数据分布不均衡。

4. Leaky ReLU函数

公式：

作用：
- 解决了ReLU函数在输入小于0时梯度为0的问题，即使输入为负值，也有一个非零的梯度，可以避免神经元“死亡”。
- 保留了ReLU函数在输入大于0时梯度为1的优点，可以加速训练过程。
缺点：
- 参数α的选择比较困难，不同的α值可能会对模型的性能产生较大的影响。
- 当输入为负值时，输出仍然不是以0为中心，可能会对后续层的数据分布产生一定的影响。

5. ELU函数

公式：

作用：
- 当输入小于0时，输出是一个负值，可以使神经网络的输出更加接近以0为中心，有助于加速训练过程。
- 在输入小于0时，梯度不为0，可以避免神经元“死亡”。
缺点：
- 计算指数函数时计算量相对较大，相比ReLU和Leaky ReLU函数，计算效率较低。
- 超参数α的选择对模型的性能有一定的影响。

6. Softmax函数

公式：

作用：
- 常用于多分类问题的输出层，将神经网络的输出转换为概率分布，表示输入属于各个类别的概率。
- 可以将多个神经元的输出进行归一化处理，使输出值具有可比性。
缺点：
- 计算指数函数和求和操作时计算量较大，尤其是当输入向量的维度较高时，计算效率较低。
- 当输入值的差异较大时，可能会出现数值不稳定的问题，导致计算结果不准确。

7. Swish函数

公式：Swish(x)=x⋅σ(x) 其中，σ(x)是Sigmoid函数。
图像：是一个平滑的曲线，输出范围在(0,+∞)之间。
作用：
- 是一种自门控激活函数，可以自动调整神经元的激活程度，增强神经网络的表达能力。
- 在某些情况下，相比ReLU函数等，可以取得更好的性能。
缺点：
- 计算Sigmoid函数时计算量相对较大，相比ReLU函数，计算效率较低。
- 目前对其理论研究还不够深入，对其性能的影响因素还需要进一步探索。

8. Mish函数

公式：Mish(x)=x⋅tanh(softplus(x)) 其中，softplus(x)=ln(1+ex)。
图像：是一个平滑的曲线，输出范围在(-∞,+∞)之间。
作用：
- 是一种自门控激活函数，可以自动调整神经元的激活程度，增强神经网络的表达能力。
- 在某些情况下，相比ReLU函数等，可以取得更好的性能。
缺点：
- 计算softplus函数和tanh函数时计算量相对较大，相比ReLU函数，计算效率较低。
- 目前对其理论研究还不够深入，对其性能的影响因素还需要进一步探索。

参考内容：常见激活函数（Sigmoid、Tanh、Relu、Leaky Relu、Softmax）-优快云博客

2.2.3 边界损失函数

1. CIoU 损失函数

核心思想：综合考虑了边界框的重叠面积、中心点距离以及宽高比三个因素，以更全面地衡量预测框和真实框之间的相似度。
组成部分：
- IoU 成本：衡量预测框和真实框的重叠程度。
- 距离损失：计算预测框和真实框中心点之间的欧氏距离与最小外接矩形对角线长度的比值。
- 形状损失：衡量预测框和真实框宽高比的差异。
优点：通过引入中心点距离和宽高比的约束，能够更准确地回归边界框，提高模型的检测精度。
缺点：计算过程相对复杂，且在处理纵横比时存在一定的模糊性。

2. SioU 损失函数（SIoU Loss）

核心思想：在 CIoU 损失函数的基础上引入角度损失（Angle Cost），进一步优化边界框的回归效果。
组成部分：
- 角度损失（Angle Cost）：通过计算真实框和预测框中心点的夹角，衡量两者的方向差异。具体计算方法是先求出中心点的宽度差和高度差，进而得到夹角的正弦值，再通过三角函数计算角度损失。
- 距离损失（Distance Cost）：与 CIoU 中的距离损失类似，计算真实框和预测框中心点之间的距离与最小外接矩形对角线长度的比值。
- 形状损失（Shape Cost）：衡量真实框和预测框的宽高比差异，通过计算宽高差的相对值来衡量形状的匹配程度。
- IoU 成本（IoU Cost）：即传统的 IoU 值，衡量预测框和真实框的重叠程度。
优点：通过引入角度损失，能够更好地考虑边界框的方向差异，从而进一步提高边界框回归的精度。
缺点：计算过程相对复杂，增加了角度损失的计算，可能会导致训练时间略有增加。

3. DIoU 损失函数

核心思想：在IoU的基础上，引入了预测框和真实框中心点之间的欧氏距离，以加速边界框回归的收敛速度。
组成部分：
- IoU 成本：衡量预测框和真实框的重叠程度。
- 距离损失：计算预测框和真实框中心点之间的欧氏距离与最小外接矩形对角线长度的比值。
优点：通过考虑中心点距离，能够更快地收敛，提高边界框回归的效率。

4. EioU 损失函数（EIou Loss）

核心思想：在 DIoU 的基础上，增加了对边界框宽高差异的惩罚项，进一步优化边界框的回归效果。
组成部分：
- IoU 成本（IoU Cost）：与 SioU 相同，衡量预测框和真实框的重叠程度。
- 距离损失（Distance Cost）：与 DIoU 相同，计算真实框和预测框中心点之间的距离与最小外接矩形对角线长度的比值。
- 形状损失（Shape Cost）：与 SioU 的形状损失类似，但具体计算方式可能略有不同，主要衡量真实框和预测框的宽高比差异。
优点：相比 DIoU，能够更好地处理边界框的宽高差异，进一步提高边界框回归的精度。
缺点：计算过程比 DIoU 稍复杂，增加了形状损失的计算。

5. Wiou 损失函数（Wiou Loss）

核心思想：通过为不同的边界框分配不同的权重，使得损失函数更加关注重要的边界框，从而提高模型的性能。
组成部分：
- IoU 成本（IoU Cost）：与 SioU 和 EioU 相同，衡量预测框和真实框的重叠程度。
- 权重分配（Weight Allocation）：根据边界框的大小、类别或其他特征，为每个边界框分配不同的权重。权重的计算方式可以根据具体任务进行设计。
优点：能够根据边界框的重要性分配不同的权重，使得模型更加关注重要的边界框，从而提高模型的性能。
缺点：需要设计合理的权重分配策略，否则可能会导致权重分配不合理，影响模型的性能。
缺点：未考虑边界框的宽高比，因此在处理形状差异较大的边界框时，精度上可能不如CIoU。

2.2.4 特征工程

特征工程是机器学习和数据分析中的关键步骤，它涉及从原始数据中提取有价值的信息，以提高模型的性能。

思想：深入理解数据的来源、含义和分布情况。结合业务背景，理解哪些特征可能对目标变量有重要影响。

步骤：

问题定义：确定数据挖掘或机器学习任务的具体目标。

数据收集：从数据源中提取数据，确保数据的完整性和准确性。

数据探索与理解：使用可视化工具探索数据的分布、相关性和异常值。

数据清洗：选择合适的方法填充或删除缺失值，如均值填充、中位数填充、众数填充或使用模型预测缺失值。

特征构造：从原始数据中提取或构造新的数值特征、将分类型特征转换为数值型特征。

特征选择：选择与目标变量相关的特征。

特征降维：通过线性变换将数据投影到低维空间，同时保留主要信息。

特征评估与优化：通过模型的性能指标（如准确率、召回率、F1分数）评估特征的有效性。

模型训练与验证：使用选定的特征训练模型，选择合适的算法（如决策树、随机森林、神经网络等）。

参考：利用Python进行常见的特征工程_python字符型特征工程-优快云博客

2.3 数据挖掘

2.3.1 数据清洗

处理数据中的错误和缺失值。数据中可能存在错误，如错误的日期格式、错误的数值等。例如，在一个记录学生考试成绩的数据集中，可能会出现某个学生的成绩被错误地记录为负数。对于这种情况，需要检查数据来源，找出错误产生的原因，并进行修正。

对于缺失值，有多种处理方法。一种是删除包含缺失值的记录，但这可能会导致数据量减少，影响后续分析。另一种是使用填充方法，如用平均值、中位数或众数来填充缺失的数值。例如，在一个记录员工工资的数据集中，如果某个员工的工资数据缺失，可以用该部门员工工资的平均值来填充。

2.3.2 数据集成

将来自不同数据源的数据合并到一起。例如，一个企业可能有多个部门的数据库，销售部门的数据库记录了销售订单信息，而客服部门的数据库记录了客户投诉信息。如果要分析客户投诉对销售的影响，就需要将这两个部门的数据进行集成。这可能涉及到数据格式的转换、数据的对齐等操作。比如，两个数据库中对客户身份的标识方式可能不同，需要找到一种方法将它们关联起来。

2.3.3 数据转换

对数据进行规范化和离散化等操作。规范化是将数据按比例缩放，使之落入一个特定的小区间，如 [0,1]。例如，在机器学习算法中，如果特征值的范围差异很大，如一个特征是人的年龄（范围可能是0 - 100），另一个特征是年收入（范围可能是几千到几百万），规范化可以避免数值大的特征在计算过程中对结果产生过大的影响。

离散化是将连续型数据转换为离散型数据。比如，将年龄从一个连续的数值转换为几个年龄段，如0 - 18岁、19 - 30岁、31 - 50岁、50岁以上等，这有助于某些数据挖掘算法更好地处理数据。

2.3.4 选择合适的算法

根据前面定义的数据挖掘类型和数据的特点来选择算法。对于分类问题，常见的算法有决策树算法（如ID3、C4.5等）、支持向量机（SVM）、神经网络等。决策树算法通过构建树形结构来对数据进行分类，它易于理解和解释。例如，在医疗诊断中，决策树可以根据患者的症状（如发热、咳嗽等）和检查结果（如血常规指标）来判断患者可能患有的疾病。

对于聚类问题，有K - 均值算法、层次聚类算法等。K - 均值算法是通过将数据分成K个簇，使得簇内数据的相似度高，簇间数据的相似度低。比如在市场细分中，可以根据客户的购买行为、消费习惯等特征，将客户分成不同的簇，每个簇代表一种客户类型。、

2.3.5 模型训练和评估

使用数据来训练选定的算法模型。例如，在使用神经网络进行图像识别时，需要将大量的带有标签的图像数据输入到神经网络中进行训练，让网络学习图像特征和标签之间的关系。

对模型进行评估，常用的评估指标有准确率、召回率、F1 - score等。对于分类问题，准确率是正确分类的样本数占总样本数的比例。例如，在垃圾邮件分类任务中，如果模型正确判断了90%的邮件类别（垃圾邮件或正常邮件），那么准确率就是90%。同时，还需要考虑其他指标，如召回率，它表示实际为正类的样本中被正确识别为正类的比例。因为有时候模型可能会为了提高准确率而过度拒绝正类样本，导致召回率降低。

2.4 数据挖掘与特征工程

2.4.1 特征工程是数据挖掘的重要前提

数据挖掘的目标和基础：数据挖掘是从大量的数据中提取出有价值的信息和知识，而特征工程是为数据挖掘提供高质量输入的关键环节。数据挖掘算法的性能很大程度上依赖于输入数据的质量和特征的有效性。通过特征工程，可以将原始数据转换为更易于挖掘和分析的形式，从而为数据挖掘算法提供更有意义的输入。

提升数据挖掘效率：原始数据往往包含大量的噪声和冗余信息，直接进行数据挖掘可能会导致计算成本过高、挖掘结果不准确等问题。特征工程通过对数据进行筛选、转换和提取，去除无关和冗余的特征，保留对挖掘任务有用的特征，从而提高数据挖掘的效率和准确性

2.4.2 数据挖掘对特征工程的反馈和指导

验证特征的有效性：数据挖掘的结果可以用来验证特征工程的效果。如果挖掘结果不理想，可能是因为特征选择不当或特征提取不准确。通过分析数据挖掘的结果，可以发现哪些特征对挖掘任务有帮助，哪些特征是冗余的或无关的，从而对特征工程进行调整和优化。

指导特征工程的方向：数据挖掘过程中发现的模式和规律可以为特征工程提供方向。例如，在挖掘过程中发现某些特征之间存在复杂的非线性关系，那么在特征工程中可以考虑添加这些特征的交互项或进行非线性变换，以更好地捕捉数据中的信息。

数据挖掘和特征工程之间是一个循环迭代的过程。在实际项目中，通常需要多次进行特征工程和数据挖掘的迭代，每次迭代都会根据挖掘结果对特征工程进行优化，从而不断提高数据挖掘的效果。

2.5 常见网络模型

CNN

RNN

LSTM

GRU

GAN

2.6 常见的评估指标

CV（计算机视觉）

准确率（Accuracy）：计算模型预测正确的样本数占总样本数的比例，是最直观的评估指标，但对类别不平衡的数据集不够敏感。
精确率（Precision）：指模型预测为正类的样本中，实际为正类的比例，反映了模型对正类样本的识别能力。
召回率（Recall）：指实际为正类的样本中，模型成功预测为正类的比例，体现了模型对正类样本的覆盖程度。
F1-score：是精确率和召回率的调和平均值，是一个综合性评估指标，特别适用于类别不平衡的问题。
mAP（mean Average Precision）：平均精度均值，主要用于目标检测任务，综合考虑了检测框的定位准确性和类别预测的准确性，能更好地衡量模型在不同置信度阈值下的性能。
IoU（Intersection over Union）：交并比，用于评估目标检测任务中预测框和真实框的重合程度，是判断目标检测精度的重要指标。

NLP（自然语言处理）

准确率（Accuracy）：正确分类的样本占总样本的比例，是最直观的评估指标，但可能受到类别不平衡问题的影响。
精确率（Precision）：模型预测为正类的样本中，实际为正类的比例，反映了模型对正类样本的识别能力。
召回率（Recall）：实际为正类的样本中，模型成功预测为正类的比例，体现了模型对正类样本的覆盖程度。
F1-score：精确率和召回率的调和平均值，是综合性评估指标，特别适用于类别不平衡的问题。
BLEU（Bilingual Evaluation Understudy）分数：计算生成文本与参考文本之间的n-gram重叠度，是衡量生成文本质量的重要指标，常用于机器翻译等生成模型。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：基于召回率的评估指标，特别适用于文本摘要、问答生成和机器翻译等任务，通过对生成文本和参考文本的n-gram或子序列匹配程度进行评估。

时序预测

平均绝对误差（MAE）：计算每一个样本的预测值和真实值的差的绝对值再取平均，提供了模型预测误差的平均大小，对所有误差一视同仁。
均方误差（MSE）：计算每一个样本的预测值与真实值的差的平方再取平均值，反映了预测误差的平方和的均值，对大误差更敏感。
均方根误差（RMSE）：是均方误差进行开方得到，以相同的度量单位衡量模型预测值与实际观测值之间的差异，便于理解和解释，对大误差的惩罚更重。
平均绝对百分比误差（MAPE）：是相对误差度量值，避免了正误差和负误差相互抵消，适用于衡量预测值与真实值之间的相对误差。
决定系数 R-squared：又叫可决系数或拟合优度，其计算结果即为模型预测的准确度，取值范围为0，1，R2值越接近1，模型性能越好。
平均绝对尺度误差（MASE）：比较了给定模型预测错误与一种简单方法（如随机游走）的预测错误，具有尺度无关性，可以在不同的时间序列间进行比较。

大模型

Perplexity（困惑度）：衡量模型对文本序列的预测不确定性，困惑度越低，模型对文本的预测越准确。它常用于语言模型的评估，反映了模型在生成或预测文本时的性能。
F1-score：在大模型的分类任务或生成任务中，F1-score仍然是一个重要的综合性评估指标，它平衡了精确率和召回率。
BLEU分数：计算生成文本与参考文本之间的n-gram重叠度，用于评估生成文本的质量，尤其在机器翻译、文本生成等任务中应用广泛。
ROUGE：基于召回率的评估指标，通过对生成文本和参考文本的n-gram或子序列匹配程度进行评估，适用于文本摘要、问答生成等任务。

F1 分数

F1公式是精确率（Precision）和召回率（Recall）的调和平均值，用于评估模型的综合性能，特别是在类别不平衡的情况下。

精确率（Precision）：模型预测为正类的样本中，实际为正类的比例。

召回率（Recall）：实际为正类的样本中，模型成功预测为正类的比例。

2.7 计算机视觉

2.7.1 双阶段检测器

RCNN

Fast RCNN

Faster RCNN

mask RCNN

2.7.2 单阶段检测器

YOLOv5

YOLOv8

YOLO v11

1. YOLOv11入门到入土使用教程(含结构图)_yolov11 github-优快云博客

2. YOLOv11 | 一文带你深入理解ultralytics最新作品yolov11的创新 | 训练、推理、验证、导出（附网络结构图）-优快云博客

VIT

DETR

REDETR

Swing Transformer

2.7.3 注意力机制

CA

ECA

SimAM

NAM

GAM

2.8 自然语言处理

TextCNN

DPCNN

LSTM

Self-Attention

Transformer

Bert

2.9 时序预测

统计法

机器学习法

深度学习法

2.10 多模态

Clip

Glip

Blip

2.10.4 AI Agent

AI agent（人工智能代理）是一种能够感知环境并做出决策以实现特定目标的智能系统。它结合了人工智能技术，如机器学习、自然语言处理和自动化决策，以模拟人类智能行为。

AI agent的核心特点

感知能力：AI agent能够通过传感器或输入数据感知其环境。例如，在智能家居系统中，AI agent可以通过温度传感器感知室内温度；在自动驾驶汽车中，它可以通过摄像头和雷达感知道路状况。
决策能力：基于感知到的信息，AI agent能够做出决策。这些决策可能是基于预设规则，也可能是通过机器学习算法动态生成的。例如，智能家居AI agent可以根据室内温度自动调节空调；自动驾驶AI agent可以根据道路状况调整车速。
自主性：AI agent能够在一定程度上自主运行，无需人类持续干预。它可以根据预设目标和环境变化自动调整行为。例如，智能客服AI agent可以自动回答常见问题，只有在遇到复杂问题时才需要人工介入。
适应性：AI agent能够根据环境变化和新数据进行学习和适应。例如，通过机器学习算法，AI agent可以不断优化其决策模型，以更好地应对新的情况。

AI agent的类型

简单反射代理：这是最基本的AI agent类型，它根据当前感知到的状态直接做出决策，而不考虑历史信息。例如，一个简单的温度控制器，当感知到温度过高时，就打开空调。
模型驱动代理：这种代理不仅考虑当前状态，还会结合环境模型来预测未来状态并做出决策。例如，自动驾驶汽车会根据当前道路状况和交通规则模型来规划行驶路径。
基于目标的代理：这种代理具有明确的目标，并根据目标来做出决策。例如，一个智能客服AI agent的目标是解决客户问题，它会根据客户的问题内容选择最合适的回答。
基于效用的代理：这种代理不仅考虑目标，还会评估不同决策的效用（即价值）。例如，一个投资AI agent会根据市场数据评估不同投资方案的潜在收益和风险，选择最优方案。
学习代理：这种代理能够通过学习不断改进其行为。例如，一个推荐系统AI agent会根据用户反馈不断优化推荐算法，以提高推荐的准确性和用户满意度。

AI agent的发展趋势

多模态交互：未来的AI agent将能够通过多种方式与用户交互，如语音、文字、手势等，提供更加自然和便捷的用户体验。
强化学习：通过强化学习，AI agent能够在复杂环境中自主学习和优化行为，提高决策的准确性和适应性。
跨领域融合：AI agent将越来越多地应用于跨领域场景，如智能城市、工业互联网等，通过整合不同领域的数据和资源，实现更高效的社会和经济运行。
伦理和安全：随着AI agent的广泛应用，伦理和安全问题将成为关注焦点。如何确保AI agent的行为符合人类价值观，保护用户隐私和数据安全，将是未来发展的重要方向。