自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 我的编程之旅:从零到无限可能

2024年偶然用Python写了一个自动整理文件的脚本,第一次感受到“代码即魔法”的震撼。“代码是21世纪的诗歌,而我将用变量书写未来。如果你也在学习编程,欢迎留言分享你的目标,让我们彼此见证成长!痴迷于用代码解决现实问题,尤其是自动化工具开发与智能硬件交互方向。采用“3+1”节奏(3周学习新技术,1周项目整合)开放的技术生态(如CUDA、Omniverse平台)大家好,我是望云山,一名智能科学与技术专业的大一学生。基础期(1-3个月):每周投入12小时。提升期(4-6个月):每周18小时。

2025-03-29 21:16:42 340

原创 第二章:17.5 什么时候使用决策树

优先选择决策树或XGBoost。

2025-02-22 11:30:00 460

原创 第二章:17.4 XGBoost算法

XGBoost 是一种强大的机器学习算法,它通过逐步构建多棵决策树,并优先关注那些尚未被准确预测的样本,从而逐步提升模型的整体性能。这种“刻意练习”的策略使得 XGBoost 在处理复杂数据集时表现出色。此外,XGBoost 的开源实现使得它易于使用,广泛应用于各种领域。

2025-02-22 07:30:00 1376

原创 第二章:17.3 随机森林算法

随机森林(Random Forest)是一种强大的集成学习算法,它通过组合多个决策树来提高预测的准确性和稳定性。它比单个决策树更强大,因为它能够通过多种方式减少过拟合,并充分利用数据的多样性。

2025-02-21 21:25:26 782

原创 第二章:17.1 从单一决策树到集成方法:提升模型鲁棒性的关键 17.2替换取样:构建决策树的关键技术

因此,仅仅改变一个训练样本,就可能导致决策树在根节点产生不同的分割,进而生成一个完全不同的决策树。这三棵树做出了不同的预测,但通过投票机制,多数树预测它是猫,因此最终的预测结果就是“猫”。这种基于投票的集成方法使得整体算法对单个决策树的决策不那么敏感,因为每棵树的预测只占总票数的一部分。我们可以将这10个样本放入一个“袋子”中,然后通过替换取样的方式从中抽取新的样本,构建一个新的训练集。接下来,我们将探讨如何构建这些决策树的集合,以及如何通过不同的策略让它们产生多样化的决策,从而进一步提升集成方法的性能。

2025-02-20 02:00:00 378

原创 第二章:16.6 回归树

到目前为止,我们已经讨论了如何训练单个回归树。通过选择方差减少量最大的特征进行分裂,我们可以构建一个能够预测连续数值的回归树。如果你训练多个回归树并组合它们,我们称之为“回归树集合”,这通常可以得到更好的预测结果。决策树在回归算法中的应用:预测动物体重图片展示了一个完整的回归决策树,用于预测动物的体重。决策树根据耳朵形状和脸型进行分裂。图片展示了如何通过比较不同特征分裂后的方差减少量来选择最佳分裂特征。这里有三个特征:耳朵形状(Ear shape)、脸型(Face shape)和胡须(Whiskers)。

2025-02-19 21:10:22 818

原创 第二章:16.5 决策树处理连续值特征

排序:按特征值对样本进行排序。选择阈值:选择排序后的中点作为可能的阈值。计算信息增益:对每个阈值计算分裂后的信息增益。选择最优阈值:选择信息增益最高的阈值进行分裂。如果连续特征的分裂效果比其他特征更好,那么它就会被选为当前节点的分裂特征。这种方法使得决策树能够有效地处理连续特征,从而提高分类性能。

2025-02-19 19:57:18 930

原创 第二章:16.4 独热编码处理多值特征

独热编码是一种将分类特征转换为一组二进制特征的方法。如果一个分类特征有k个可能值,则通过独热编码将其拆分为k个独立的二进制特征,每个特征只能取0或1的值。具体来说:每个二进制特征对应于分类特征的一个可能值。对于一个样本,只有与该样本特征值对应的二进制特征取值为1,其余特征取值为0。独热编码是一种处理多值分类特征的有效方法。它通过将分类特征拆分为多个二进制特征,确保每个特征值互斥且完备,从而兼容多种机器学习算法。

2025-02-18 07:15:00 1111

原创 第二章:16.3 构建决策树的过程

递归思想:决策树的构建是递归的,每次分割数据后,都会在子集上重复相同的步骤,直到满足停止条件。信息增益:选择信息增益最高的特征进行分割,以最大化数据的纯度。停止条件:通过设置最大深度、信息增益阈值、最小样本数等参数,避免过度拟合。参数优化:可以通过交叉验证等方法调整参数(如最大深度、信息增益阈值等),以达到最佳的模型性能。

2025-02-17 22:10:01 990

原创 第二章:16.2 选择拆分信息增益

通过计算不同特征的信息增益,我们可以确定哪个特征对于提高数据集纯度最有效。在决策树算法中,我们会选择信息增益最大的特征作为当前节点的拆分特征,以此来构建决策树。这种方法有助于减少数据集的熵,从而提高分类的准确性。

2025-02-16 17:15:00 1511

原创 第二章:16.1 测量纯度--熵

熵是衡量数据集不纯度的一种方法。它通过计算数据集中各类别样本的比例来评估数据集的混乱程度。熵的值越高,表示数据集的不纯度越高;熵的值越低,表示数据集的纯净度越高。熵是衡量数据集不纯度的一种方法。在分类问题中,熵可以帮助我们了解数据集的混乱程度。熵值越高,表示数据集的分类越不明确;熵值越低,表示数据集的分类越明确。在构建决策树时,熵是一个重要的指标,可以帮助我们选择最佳的分裂点。

2025-02-16 11:47:35 722

原创 第二章:15.1 决策树模型 15.2 构建决策树过程

决策树是一种基于树形结构的分类模型,通过一系列的决策节点来对数据进行分类。根节点(Root Node)树的最顶部节点,是决策的起点。例如,根节点可能询问“耳朵形状是什么?决策节点(Decision Nodes)椭圆形的节点,表示一个特征的判断条件。根据特征的值,决策树会沿着不同的分支向下进行判断。叶节点(Leaf Nodes)矩形的节点,表示最终的分类结果。例如,叶节点可能标注为“猫”或“非猫”。决策树是一种基于树形结构的分类模型,通过一系列的决策节点来对数据进行分类。根节点是决策的起点,决策节点。

2025-02-16 10:14:51 1113

原创 第二章:14.2 精确率与召回率的权衡

精确率(Precision):衡量的是所有被预测为正类(即预测为罕见疾病存在)的样本中,实际为正类的比例。计算公式为:精确率关注的是预测为正类的准确性。召回率(Recall):衡量的是所有实际为正类的样本中,被正确预测为正类的比例。计算公式为:召回率关注的是识别所有正类的能力。

2025-02-15 07:30:00 516

原创 第二章:14.1 倾斜数据集的误差指标

在训练一个二进制分类器来检测一种罕见疾病时,我们通常会用到一些误差度量标准来评估算法的性能。这是因为仅仅使用分类误差率(如准确率)可能无法准确反映算法的实际效果,尤其是在处理不平衡数据集时。

2025-02-14 21:58:57 642

原创 第二章:13.5 机器学习项目的完整周期

建立一个有价值的机器学习系统需要经过项目规划、数据收集、模型训练与迭代改进、模型部署以及系统监控与维护等步骤。通过合理的规划和持续优化,可以确保机器学习系统在实际应用中表现出色,并长期保持良好的性能。

2025-02-14 11:30:00 333

原创 第二章:13.4 迁移学习

迁移学习通过利用预训练模型的通用特征,帮助我们在数据量较少的情况下快速构建出性能良好的模型。它不仅节省了时间和计算资源,还促进了机器学习社区的协作与进步。此外,迁移学习的另一个优势是,许多研究人员已经在大规模数据集上训练了神经网络,并将这些预训练模型发布在网上供免费使用。这意味着你可以直接下载这些预训练模型,替换输出层,并根据自己的任务进行微调。通过这种方式,你可以利用其他研究人员的工作成果,快速构建出性能良好的模型。

2025-02-14 10:00:00 694

原创 第二章:13.3 数据增强:提升机器学习模型性能的关键技术

数据增强是通过。

2025-02-14 08:15:00 795

原创 第二章:13.2 错误分析在机器学习中的应用

错误分析是一种强大的工具,它可以帮助我们集中精力解决算法的主要弱点,并决定哪些改进措施最有希望提高模型性能。通过识别和解决最常见的错误类型,我们可以更有效地提升算法的准确性和可靠性。尽管存在局限性,但错误分析在指导模型改进方面仍然非常有价值。

2025-02-13 20:55:04 542

原创 第二章:13.1 机器学习的迭代发展

在机器学习的发展循环中,对于如何修改模型或数据,可能会有许多想法。不同的诊断方法可以提供指导,帮助决定哪些想法最有希望尝试。通过不断迭代和优化,可以逐步提高模型的性能。

2025-02-12 22:20:53 1051

原创 第二章:12.6 偏差或方差与神经网络

这种方法的核心思想是通过不断调整神经网络的规模和数据量来优化模型性能。具体步骤是:先通过增大网络规模减少偏差。再通过增加数据量减少方差。更大的神经网络:只要适当地进行正则化,使用更大的神经网络几乎没有坏处。它们可以提供更强的表达能力,更好地拟合复杂的函数,并且通常表现出低偏差的特性。正则化的实现:在TensorFlow中,可以通过在每一层中添加参数来实现L2正则化。适当的正则化可以防止过拟合,即使在计算上可能会稍微增加训练和推理的时间。低偏差特性。

2025-02-12 22:09:30 764

原创 第二章:12.5 再次决定下一步做什么

高方差:需要通过简化模型或增加数据量来减少过拟合。高偏差:需要通过使模型更复杂或增加数据量来提高拟合能力。通过这些步骤,你可以更有效地调试和改进你的机器学习算法,使其在预测任务上表现得更好。记住,每种方法的效果可能因具体情况而异,因此实验和调整是关键。

2025-02-12 18:23:37 189

原创 第二章:12.4 学习曲线

学习曲线展示了模型在不同训练集大小下的表现,帮助我们理解模型的泛化能力和过拟合风险。通过分析学习曲线,我们可以决定是否需要更多的训练数据,或者是否需要调整模型的复杂度以避免过拟合。对于二阶多项式模型,随着训练集的增大,训练错误可能会上升,因为模型越来越难以完美地拟合所有的训练示例,而交叉验证错误通常会随着训练数据的增加而下降,因为更多的数据有助于模型更好地学习数据的一般趋势。高偏差(High bias)是指模型过于简单,无法捕捉数据的复杂模式。

2025-02-12 17:54:10 1029

原创 第二章:12.3 建立表现基准

语音识别是一种常见的机器学习应用,用户通过语音输入代替键盘输入,系统需要将语音转换为文本。在这个过程中,算法的性能可以通过训练误差和交叉验证误差来评估。训练误差(Jtrain​):指算法在训练数据集上无法正确转录的音频片段的百分比。在这个例子中,训练误差是10.8%,意味着算法在训练数据上犯了10.8%的错误。交叉验证误差(Jcv​):指算法在未见过的数据(交叉验证集)上无法正确转录的音频片段的百分比。在这个例子中,交叉验证误差是14.8%。基准性能水平 (Baseline performance)

2025-02-12 08:00:00 1209

原创 第二章:12.2 正则化和偏差或方差

通过调整正则化参数 λ,我们可以控制模型的复杂度,从而影响模型的偏差和方差。小 λ 可能导致高方差(过拟合)而大 λ 可能导致高偏差(欠拟合)。通过交叉验证,我们可以找到一个合适的 λ 值,使得模型在训练集和验证集上都能有良好的表现,从而提高模型的泛化能力。

2025-02-11 20:35:33 660

原创 第二章:12.1 诊断偏差和方差

偏差和方差的定义:偏差:指的是模型预测值与真实值之间的差异。高偏差意味着模型过于简单,无法捕捉数据的复杂性。方差:指的是模型对训练数据的敏感程度。高方差意味着模型过于复杂,对训练数据的噪声过于敏感。左边的图(高偏差,欠拟合):模型:使用了非常简单的线性模型(直线),公式为 fw,b​(x)=w1​x+b。问题:这条直线无法很好地捕捉数据点的变化趋势,因为它太简单了。结果:模型在训练集和验证集上的表现都不好,训练误差(Jtrain​)和交叉验证误差(Jcv​)都很高。中间的图(刚好合适):模型:使用了二次多项

2025-02-11 18:41:27 1061

原创 第二章:11.2 模型选择和训练交叉验证测试集

这些公式都是基于平方误差的,因为平方误差可以放大较大的预测误差,从而在模型训练过程中给予这些误差更多的关注。通过计算这些误差,我们可以评估模型在不同数据集上的表现,并据此进行模型选择和评估。对于不同的多项式阶数 d,定义模型:当 d=1 时,模型为 fw,b​(x)=w1​x1​+b当 d=2 时,模型为 fw,b​(x)=w1​x1​+w2​x2+b当 d=3 时,模型为 fw,b​(x)=w1​x1​+w2​x2+w3​x3+b。

2025-02-11 14:45:22 639

原创 第二章:11.1 模型评估

当模型性能不佳时,可以从增加数据、调整特征和优化正则化参数等方面入手。有效的机器学习系统构建需要合理分配时间和精力,选择合适的优化方向。

2025-02-10 12:58:49 544

原创 第二章:10.2 卷积层以及卷积神经网络

密集层是神经网络中最基本的层类型,它通过将前一层的所有输出进行加权求和、加偏置、应用激活函数来生成输出。密集层可以用于特征组合、分类和回归等任务,是构建神经网络的基础。卷积层是神经网络中处理图像和其他具有空间结构数据的关键组件。它通过滤波器在输入数据上滑动来捕捉局部特征,具有参数共享和局部感知的特性,这使得它在图像识别和其他视觉任务中非常有效。

2025-02-10 09:00:00 924

原创 第二章:10.1 高级优化算法 Adam

自适应学习率:Adam算法为每个参数自适应地调整学习率,以便更快、更稳定地更新参数。根据梯度方向调整学习率:如果参数持续朝相同方向移动,增加学习率;如果参数持续振荡,减少学习率。通过这种方式,Adam算法能够在不同的参数更新路径上灵活调整学习率,从而提高训练效率和稳定性。图片展示了使用TensorFlow和Keras库构建和编译一个简单的神经网络模型的代码,该模型使用Adam优化器进行训练。模型构建(model)使用Sequential模型,依次添加三层全连接层(Dense)。

2025-02-10 08:00:00 1475

原创 第二章:9.5 多个输出的分类

多标签分类问题需要考虑每个输入样本可能属于多个类别的情况。为了解决这个问题,可以采用两种主要的方法:一种是独立训练多个神经网络,另一种是训练一个神经网络同时输出多个结果。每种方法都有其优缺点,具体选择哪种方法取决于实际应用场景和需求。独立训练多个神经网络图片上半部分展示了三个独立的神经网络,每个网络负责识别一个特定的类别(汽车、公交车、行人)。每个网络的输入都是相同的特征向量 x。每个网络的输出是一个二值向量 a[1], a[2], a[3],分别表示是否检测到汽车、公交车或行人。

2025-02-09 22:14:10 451

原创 第二章:9.4 softmax的改进实现-减少误差

虽然这种方法在大多数情况下是有效的,但在某些情况下,如果 z 的值非常大或非常小,计算: e的−z次方 时可能会遇到数值稳定性问题。例如,当 z 非常大时, e的−z次方 会非常接近0,这可能导致在计算 1+ e的−z次方 时, e的−z次方的值被舍入为0,从而使得 a 的计算结果不准确。特别是当某些 zi​ 的值非常大或非常小,计算 ezi​ 时可能会产生极端值,这可能导致数值溢出或下溢,从而影响最终的概率计算。使用Sequential模型,包含两个Sigmoid激活的隐藏层和一个线性激活的输出层。

2025-02-09 18:52:23 854

原创 第二章:9.3 神经网络的Softmax

这两张图片展示了如何构建一个具有Softmax输出层的神经网络进行多类分类,并在TensorFlow中实现这一过程。Softmax函数将输出层的线性组合转换为概率分布,使得每个输出单元的值表示该输入属于对应类别的概率。通过使用损失函数,可以有效地训练这种多类分类模型。

2025-02-09 16:09:21 1119

原创 第二章:9.2 Softmax

总结来说,Logistic回归是Softmax回归在二分类问题上的特例。当类别数为2时,Softmax回归简化为Logistic回归。在实际应用中,根据问题的类别数量选择合适的模型是非常重要的。Logistic回归适用于二分类问题,使用逻辑函数计算概率,并使用对数损失函数衡量预测与真实标签之间的差异。Softmax回归适用于多分类问题,使用Softmax函数计算每个类别的概率,并使用交叉熵损失函数衡量预测与真实标签之间的差异。

2025-02-09 07:30:00 844

原创 第二章:9.1 多类

多类分类问题与二进制分类问题的主要区别在于输出标签的数量。在多类分类问题中,需要估计每个可能输出标签的概率,并使用决策边界将特征空间划分为多个区域,每个区域对应一个类别。通过这种方式,可以处理更复杂的分类任务,如手写数字识别、疾病诊断和药品缺陷检测等。

2025-02-09 07:00:00 423

原创 第二章:8.1选择激活函数

ReLU:计算简单,训练速度快,适合隐藏层。Sigmoid:输出范围在 0 到 1,适合二进制分类问题的输出层。线性激活函数:适合回归问题的输出层。避免线性激活函数在隐藏层:因为多层线性函数仍然是线性函数,无法学习复杂的模式。

2025-02-08 22:11:54 901

原创 第二章:7.1 TensorFlow实现

这是一个衡量Logistic回归在单个训练示例上做得多好的指标。

2025-02-08 20:48:16 427

原创 4.6 无监督学习-K-means算法

没有目标值/从无标签的数据开始学习-无监督学习特点分析:采用迭代式算法,直观易懂并且非常实用缺点:容易收敛到局部最优解(多次聚类)注意:聚类一般做在分类之前。

2025-02-08 10:02:44 239

原创 4.3 线性回归的改进-岭回归/4.4分类算法-逻辑回归与二分类/ 4.5 模型保存和加载

AUC只能用来评价二分类auc非常适合评价样本不均衡中的分类器性能。

2025-02-07 21:46:56 1254 2

原创 4.2 过拟合与欠拟合

过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)那么是什么原因导致模型复杂?线性回归训练学习的时候编程模型会变得复杂,这里就对应前面再说的线性回归的两种关系,非线性关系的数据,也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系。

2025-02-06 12:12:53 331

原创 4.回归与聚类算法 4.1线性回归

1 线性回归应用场景:房价预测销售额度预测金融:贷款额度预测,利用线性回归以及系数分析因子2 什么是线性回归1) 定义:利用回归方程(函数)对一个或者多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。2)特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况叫做多元回归。线性关系不等同于线性模型。线性模型有两种:自变量一次,参数一次而线性关系就是自变量与参数都是一次的。

2025-02-05 19:49:13 614

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除