自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Scikit-learn的支持向量机(SVM)应用

支持向量机(SVM)是基于监督学习的机器学习算法,可以用于分类、回归和异常值检测。Scikit-learn提供了三个支持向量机算法函数,分别是SVC、NuSVC、LinearSVC。

2025-06-09 10:24:51 797

原创 交叉熵(cross entropy)在机器学习中的作用

当我们开发概率分类模型时,我们的目标是将模型的输入映射到概率预测,并且我们经常通过逐步调整模型的参数来训练我们的模型,以便我们的预测越来越接近真实概率。:适用于分类输出的概率分布,尤其是与Softmax(多分类)或Sigmoid(二分类)激活函数结合。:相比均方误差(MSE),交叉熵的梯度更直接,避免梯度消失问题,加速模型收敛。:默认使用交叉熵(通过最大化对数似然等价于最小化交叉熵)。交叉熵总是大于y的熵,并且交叉熵越小表示。:默认使用对数损失(交叉熵),可通过。时,使用交叉熵作为损失函数。

2025-05-29 10:02:54 1109

原创 Error-Correcting Output Codes(ECOC)

纠错输出代码 (ECOC) 是一种强大的技术,用于机器学习和数据分类任务。它们通过将多类问题转换为一系列二元分类问题,作为一种增强多类分类器性能的方法。在处理传统分类器可能难以实现高精度的复杂数据集时,这种方法特别有用。通过使用唯一的二进制代码对每个类进行编码,ECOC 允许更稳健的决策过程,从而有效减少分类错误。ECOC 的基本原理是将二进制代码分配给多类分类问题中的每个类。例如,如果有三个类,ECOC 可能会将代码 00、01 和 10 分别分配给每个类。

2025-05-27 18:53:15 1092

原创 迭代优化算法家族--牛顿法

牛顿法是迭代优化算法家族中的一员,是一种二阶优化算法,通过利用函数的二阶泰勒展开式来近似函数并找到其极值点。其更新公式依赖于梯度向量和海森矩阵,具有比一阶优化方法(如梯度下降法)更快的收敛速度,通常在接近极小值点时表现出二次收敛性。然而,牛顿法的计算成本较高,尤其是在高维问题中需要计算和存储海森矩阵及其逆矩阵。此外,牛顿法对初始点的选择较为敏感,初始点离极小值点太远可能导致算法发散。

2025-05-19 12:56:27 783

原创 线性回归的梯度下降算法

梯度下降算法是机器学习的核心优化技术,广泛应用于线性回归、逻辑回归、支持向量机和神经网络等模型。其核心思想是通过迭代调整模型参数,逐步减少预测值与实际值之间的差异,从而最小化成本函数。算法模拟从山顶寻找山谷最低点的过程,通过计算梯度(即损失函数对参数的偏导数)并沿负梯度方向更新参数,逐步逼近最优解。学习率控制更新步长,确保算法收敛。梯度下降的公式推导以均方误差(MSE)为例,展示了参数更新的数学过程。实例中,通过代码实现了多参数线性回归和逻辑回归模型,验证了梯度下降的有效性。

2025-05-15 15:40:09 831

原创 机器学习世界里的海尔兄弟:最大似然估计(MLE)和最小二乘估计(LSE)

MLE 要求对数据的分布有一定的假设,例如,数据可能服从正态分布、伯努利分布等,然后在这个分布模型的基础上进行参数估计。而 LSE 主要是用于线性回归模型,并且其在经典线性回归模型中,假设误差项具有零均值、同方差且相互独立等性质,但对误差项的分布没有明确的要求,不过在一些情况下,如高斯 - 马尔可夫定理中,当误差项满足一定的条件(零均值、同方差、无序列相关等),LSE 才具有最优线性无偏估计(BLUE)的性质。

2025-05-13 10:50:54 1479

原创 Sklearn的训练集和测试集划分

本文重点是学习Sklearn支持的训练集和测试集划分的方法,常用的train_test_split不能包打天下,需要结合数据集类型、数据集的大小等因素评估最佳的训练集和测试集划分方法。在讲到常用的CV划分方式时,也顺带介绍了一下超参优化。

2025-05-11 16:13:31 801

原创 Pandas数据导入

介绍Pandas库常用的数据导入函数,包括read_csv和read_excel两个函数

2025-05-07 08:29:10 1083

原创 相关性分析

相关性是一种统计指标,用于衡量两个变量之间的关系程度。具体来说,用于确定两个变量之间的线性关系。当一个变量的变化会导致另一个变量的变化时,这两个变量是相关的。例如,如果变量A的增加会导致变量B的增加,那么变量A和B之间就存在相关性。相关性分析是数据挖掘的一个重要环节,例如数据预测时,需要分析输入变量和预测变量的相关性,为了降低数据分析维度,可以剔除相关性为零或者相关性很小的变量。大家在学习相关性的时候,要避免一个误区:相关性就是因果关系。相关性不等于因果性这是相关性分析的一个重要原则。

2025-05-05 17:54:25 1594

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除