沃斯堡&蓝鸟-优快云博客

原创 DAY34 文件的规范拆分和写法

首先将代码按机器学习流程（如数据处理、模型训练、性能评估等）划分到独立的.py文件中，这是构建有序项目最基础也最关键的一步。：将公用辅助功能集中写入一个公共的utils.py文件中。：将所有配置项与参数统一归入一个专门的config.py文件，便于集中管理。：在顶层建立data/和models/等目录，专门存放数据和模型文件，使之与存放代码的src/目录物理分离。遵循这些通用的组织原则，你的项目结构便会自然而然地变得层次分明、易于管理。这个写法就是用来区分"这个文件是被直接运行，还是被其他文件导入"的。

2026-01-02 23:05:11 385

原创 DAY 34 库的导入

今天我们主要来聊一聊关于库的导入部分，主要是关于官方库的导入，其他部分我们现在也没太涉及故不做过多赘述。

2025-12-31 11:16:27 208

原创 DAY33 类的装饰器

在昨天，我们已经详细的了解了关于函数的装饰器的基本定义以及其用法，今天我们将主要来讨论一下关于。

2025-12-30 11:30:06 602

原创 DAY32 类的定义与方法

要求:1.包含属性:半径radius。2.包含方法:（1）calculate_area():计算圆的面积(公式:r2)。（2）calculate_circumference():计算圆的周长(公式:2r)。3.初始化时需传入半径，默认值为1。# 创建半径为 3 的圆print(c1.calculate_area()) # 输出面积print(c1.calculate_circumference()) # 输出周长# 使用默认半径 1。

2025-12-28 16:54:21 415

原创 DAY31 函数专题2：装饰器

顺序：位置参数必须在前，关键字参数在后一旦用关键字参数，后面的所有参数必须都用关键字参数可以混用，但必须保持"位置→关键字"的顺序关键字参数可以打乱顺序，因为Python按名称分配@浙大疏锦行。

2025-12-28 15:50:56 894

原创 DAY30 函数专题1：函数定义与参数

今天主要是完成了关于函数定义与参数的5个题目从中都有不一样的收获！

2025-12-24 19:50:08 673

原创 DAY 29 异常处理

finally: （可选）无论 try 块中是否发生异常，总会执行此代码块。else: （可选）如果 try 块中没有发生任何异常，则执行此代码块。FileNotFoundError (文件未找到错误)ModuleNotFoundError (导入错误)AttributeError (属性错误)except: 处理在 try 块中发生的特定异常。IndexError (索引错误)NameError (名称错误)TypeError (类型错误)ValueError (值错误)KeyError (键错误)

2025-12-19 20:44:18 267

原创 DAY28 元组和OS模块

今天主要学习了两个方面的基础知识--元组和OS模块。理解和应用好这两个方面将为我们后续进阶深度学习打下了坚实的基础。

2025-12-18 20:17:03 671

原创 DAY27 pipeline管道

具体而言，在管道机制中，可以使用Pipeline类来组织和连接不同的转换器和估计器。Pipeline类提供了一种简单的方式来定义和管理机器学习任务的流程。fit方法用于根据输入数据，学习模型的参数和规律，而predict方法用于对新的未标记样本进行预测。（5）基于以上形成的三种Pipeline构建 ColumnTransformer，将不同的预处理应用于不同的列子集，1、导入基础库、 Pipeline 和相关预处理工具、机器学习模型和评估工具，（6）构建完整的 Pipeline，将预处理器和模型串联起来（

2025-12-17 21:18:18 350

原创 DAY26 针对Kaggle平台提交一个比赛代码

你的提交应该是一个CSV文件，包含418行和一个头部。（一般比赛方会给出相应的比赛作品格式的示例）。今天是第一次实战，这次的目的主要是再次熟悉机器学习的训练流程，并能够在Kaggle平台上成功实现第一份作品的提交。注：本次比赛的代码只是为了熟悉一下Kaggle平台，只是做了一些简单处理，仍然有很大的改进空间。二、登录后选择Kaggle的competitions的选项进入如下界面。在相应的搜索框内搜索想查询方向的比赛，并选择心仪的比赛参加，这次我所选择的是。一、登录Kaggle并创建相应的账号。

2025-12-16 20:29:40 324

原创 DAY25 常见的降维算法

在前几天我们主要讨论了关于特征筛选和降维方面的问题，所以在开始今天对常见降维算法进行分析前，我们需要先明确一下特征筛选和降维的区别，作为降维技术时，其核心目标是找到一个低维特征子空间（即原始特征的线性组合），使得在该子空间中，不同类别的数据点尽可能地分开。PCA等无监督降维方法的目标是保留数据的最大方差，这些方差大的方向不一定是对分类最有用的方向。当然各种分析方法我们无法对其一概而论，我们需针对特定的情况去分析我们该使用什么方式，实践一下各个方法的效果。2. 对中心化后的数据进行SVD。

2025-12-15 20:56:20 250

原创 DAY24 奇异值SVD分解

特征从n维降至k维（k<n）减少模型参数数量加快训练和预测速度。

2025-12-14 21:21:33 302

原创 DAY 23 常见的特征筛选算法

在昨天我们提到了如何利用聚类方法来获得新的、信息量更多的特征以此来提升模型的各项性能指标，本文将采用相反的思路，通过一些常见的特征筛选方法减少部分特征以。

2025-12-12 20:54:00 1023

原创 DAY22 推断聚类后簇的类型

簇 0（蓝色）主要特征：年龄：相对年轻，年龄中位数约58岁最大心率：心率最高，中位数约168斜率：主要集中为2（可能是向上斜，表示心脏功能较好）性别：以男性为主簇定义年轻男性，心脏功能较好组这是最年轻的一组，心脏功能表现最佳运动时心率能达到较高水平常见于相对健康的年轻男性患者簇 1（绿色）主要特征：年龄：最年轻，中位数约53岁最大心率：心率中等，中位数约131斜率：分布相对均衡性别：女性比例显著高于其他组簇定义年轻女性，心脏功能中等组这是最年轻的一组，且以女性为主。

2025-12-11 21:47:06 750

原创 DAY21 常用聚类算法

在我们对一个数据集进行预处理时我们可以考虑对特征进行相应的聚类，实际在论文中聚类的策略不一定是针对所有特征，可以针对其中几个可以解释的特征进行聚类，得到聚类后的类别，这样后续进行解释也更加符合逻辑。在通过聚类后我们得到了更多维度的特征，假设有10个，但是这10个特征我们无法用我们人眼可视的方式展现出来所以我们采用。如果同一颜色的点紧密地聚在一起，而不同颜色的点团之间有明显的空白间隙，说明。：一个用最重要的两个“综合维度”来代表的、可绘制的二维数据集。KMeans 和层次聚类的参数是K值，选完k指标就确定。

2025-12-10 22:43:55 935

原创 DAY20 数组的深入理解

对于嵌套的维度，我们可以从后往前数，例如此数组其第一层是橙色中括号里的4个元素，第二层是蓝色括号里的三个元素，最后一层是紫色括号里的两个元素。今天主要是针对数组进行了一些基本的认识，着重理解了多维数组的含义。3、此外对于数组而言其还有一些基本的运算和索引这些在用到的时候我们可以再查看相关的资料。1、全0数组可以通过和其他的数组进行相乘，达到一些掩码的效果。今天主要对数组与列表的区别以及数组的维度有了新的认识。数组不管是第几个维度，其本质上都是在做数组的嵌套。更重要的区别是：数组支持向量化运算，列表不支持。

2025-12-08 22:26:10 313

原创 DAY19 评价问题

不管是针对分类问题还是回归问题，我们通常会得到多个评价指标，那么我们该如何根据这多个指标来评判哪个模型综合来说更加好呢，在此我们可以引入客观赋权（熵权法）+综合评价与排序（TOPSIS）法来进行综合的评价。本次关于评价问题的学习我们主要利用熵权法将输入一个n*m的矩阵（n模型的数量m品佳指标）输出各个m的权重（包含更多区分信息的权重更大）。2.综合排序: 得到了一个基于所有加权指标的 Ci值，该值公正地衡量了每个模型与完美模型(理想解)的相似程度。五、利用topsis法进行相应的评价。

2025-12-06 22:04:53 255

原创 DAY18 回归问题与置信区间

指标核心关注点对离群点量纲主要用途MAE平均绝对误差大小不敏感原始单位追求稳健，误差解释直观，业务报告。MSE/RMSE惩罚大误差非常敏感MSE是平方，RMSE是原始单位看重模型精度，不希望出现大偏差（如金融风险）。RMSE最常用。R²模型解释力敏感（通过平方）无评估模型相对基线模型的提升程度，比较不同模型/不同问题的表现。简单选择建议想最直观地了解平均误差多大 → 看MAE。想评估模型的综合精度，且在意大错误 → 看RMSE首选想评估模型本身的有效性。

2025-12-05 22:28:00 567

原创 DAY17 多分类问题

因此，当你的任务目标中“不放过任何一个少数类”比“整体正确率高”更重要时（如疾病诊断、故障检测、金融风控等），宏平均是一个比准确率更可靠的评估指标。在日常生活中，我们除了常见的二分类问题，有时我们也会见到一些多分类问题，对于多分类问题我们通常通过降维的方式来将其转化为多个二分类问题。：在计算精确率、召回率等指标时，“微平均”的计算方式与准确率的精神一致。二分类问题我们往往只关注正类，现在面对多分类问题，我们需要一些综合指标来反映出模型的能力。找到一个全局意义上的、区分能力最好的阈值（第二张图的工作）。

2025-12-04 21:57:14 844

原创 DAY16 ROC曲线和PR曲线

在所有被模型预测为“正例”（少数类，如欺诈、患病）的样本中，

2025-11-30 21:47:06 912

原创 DAY15 不平衡数据的处理

在机器学习任务中（不包含深度学习），在分类问题中数据不平衡会导致一些标准算法优先拟合多数类，这样能降低总误差，但对少数类样本的识别能力不足（低召回率）。为了处理不平衡数据我们主要有三个层面对其进行相应的处理分别是。接下来本文将对心脏病数据集利用这三个层面的方法进行相应的处理。若想使得处理的效果更好，我们可以对模型的超参数进行优化。：不减少多数类样本，而是通过增加少数类样本来平衡数据集。：从少数类中随机选择样本进行的抽样，直到少数类样本数量与多数类持平。

2025-11-28 22:31:53 552

原创 DAY14 多目标优化

多目标优化(MOO)和它的算法 MOEA，其核心思想是:既然目标相互冲突，找不到一个完美的“最好解”，那就去找一组“最不差的权衡解”，并把选择权交给用户，对此我们就需要定义一种新的“最优”——帕累托最优。对这些基本概念和思想有了一定的了解后，我们在后续的可视化以及相关问题的描述和分析的过程会有更加深刻的理解和认识。：方案A支配方案B，当且仅当（1）A在所有目标上都不比B差；：它代表了最佳的权衡点。想在一个目标上获益，就必须在其他目标上让步，是“最不差的权衡解”。：被支配的方案是较差的选择，应被淘汰。

2025-11-27 22:14:09 760

原创 DAY 13 启发式算法

今天我们主要学习了两个方面的内容，一方面对于python的语法方面我们引入了来简化相关的代码长度，另一方面我们对遗传算法 (GA)、粒子群优化 (PSO) 和模拟退火 (SA) 的核心思想进行了相应的学习。是一种用简洁的语法的方法。它压缩成一行代码。

2025-11-25 21:15:05 231

原创 DAY12 随机森林原理与贝叶斯优化可视化

字典的item方法很重要，在后续的深度学习的过程中我们常常在第一步需要进行模型的实例化，这个步骤需要我们自己新建一个类。这种方式相较于昨天直接调库会显得有一些繁琐，但是利用此种方式我们在参数设定上会有更高的自由度，同时也能够对算法的原理和该如何调参有一定的理解，也能积累一些参数经验，同时可以看到模型计算的过程。enumerate函数返回的是索引和对应的元素，对于字典我们用此方法我们只可以返回其索引和对应的值，因此我们可以综合使用enumerate和item方法来实现返回所有元素的目的。

2025-11-23 22:17:18 698

原创 DAY11 常用的调参方式

本次笔记的目的在于熟悉各种调参优化的方法，以及各自的特点，故未在其他评价指标上进行过多的考虑。随着迭代的进行，我们的数据点越来越多，代理模型（黑色虚线）会越来越接近真实目标函数（黑色实线），不确定性（浅蓝色区域）也会在数据点周围逐渐缩小。2、随机搜索：从100个参数中选取5个进行相关的参数变化，看变化参数对结果有没有影响，有的参数影响比较大，效率就相应的变高了。1、网格搜索：不同参数的情况建立多个模型，对多个模型训练的结果进行比较，选取一个最好的模型，其实质上并没有进行相应的优化。

2025-11-22 21:14:33 740

原创 DAY10 机器学习建模与评估

在此我更想对其各个指标的含义进行相应的解释，以便于后续能够选取合适的指标和修正和评判模型。（如99%的负例和1%的正例）时，单独看准确率会极具误导性（一个总是预测为负例的模型也能获得99%的准确率）。数据泄露是指在模型训练过程中，无意中使用了在真实预测时本无法获取的信息（即测试集的信息），导致模型性能评估被高估。在此我们采用利用中位数来代替异常值的方法实现异常值的清楚，并绘制出相应的箱线图。：在所有被模型预测为“1（违约）”的客户中，有 89.43% 的人真的1（违约）了。3.fit()=学习知识的过程。

2025-11-12 22:08:21 838

原创 DAY9 热力图与子图的绘制

热力图理论上是反应连续特征之间相关性的一个可视化图表，因此我们先将其连续变量提取出来，分别为'age'、'trestbps'、 'chol'、 'thalach'、 'oldpeak'（提取方法可参考DAY7）。2、# 应用列名重命名。enumerate（）函数绘制子图。知识点：热力图和子图的绘制。enumerate（）函数。一、对特征中文名进行映射。介绍了热力图的绘制方法。介绍了子图的绘制方法。

2025-11-11 20:54:23 403

原创 DAY8 标签编码与连续变量处理

目前我们只会用到映射这个用法，他需要传入的是字典，因为字典的键值对，键是唯一的，值可以重复。所以后续想完成新的映射，直接修改字典的键值对即可。在上次DAY7的心得笔记中我们已经完成了作业的1、4项的内容，因此在今天的笔记中不做过多的赘述，我们主要围绕字典、离散特征的便签编码以及。对于心脏病数据集我们发现其离散变量均已经编码好了所以我们还是针对信贷预测这一数据集的离散变量进行此操作。在学习如何对离散变量进行标签编码前，先补充了与字典有关的基本概念。3、对相关的数据利用新建的实例化对象进行数据的拟合。

2025-11-09 20:46:08 947

原创 DAY7 复习日

通过数据类型筛选出的连续变量有： ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'] 变量统计结果：所有变量的总个数为：14 连续变量的个数为：14 离散变量的个数为：0。***************除了上述函数查看的学习今天相对之前的学习内容进行一个综合实践******************

2025-11-08 22:12:58 458

原创 DAY6数据可视化

下面我们可针对以上三种情况分别找一些示例数据进行分析，在分析过程中我们不仅要，更要理解绘图的本质目的是，感受最纯粹的数据分析！一、单特征分布可视化1、区分连续特征和离散特征运行结果：第一列为连续特征第二列为离散特征2、选取连续特征画一个箱线图运行结果：：箱体非常紧凑，且整体位置偏左（靠近0值）。中位数（~12,500）远低于20,000，这表明。：数据的分布极度不均衡。虽然大多数人债务不高，但存在一个数量可观、债务水平极高的群体（异常值）。这些异常值的债务是普通人债务的几倍甚至十倍以上。

2025-11-07 22:06:47 658

原创 DAY5 离散特征的处理（独热编码）

注意：这里区分离散变量仅仅通过object类型，实际中还需要结合对数据的认识，这里为了方便没有考虑现实意义。对独热编码后的变量转化为int类型。对离散变量进行one-hot编码。题目：离散特征的独热编码。

2025-11-05 21:27:31 234

原创 DAY4 缺失值的处理

一般我们都选用pandas来读取csv文件，因为csv文件一般都比较干净就是纯数据，不会进行相应的加粗，而且在python中pandas工具可以实现和excel一样的功能。1.打开数据（csv文件、excel文件）题目：初识pandas库与缺失数据的补全。2.查看数据（尺寸信息、查看列名等方法）去尝试补全信贷数据集中的数值型缺失值。5.利用循环补全所有列的空值。众数、中位数填补空值。

2025-11-04 20:47:50 164

原创 DAY3 列表、循环和判断语句

初始化两个变量：excellent_count 用于记录分数大于等于 90 的个数，初始值为 0；定义一个包含整数的列表 scores，赋值为 [85, 92, 78, 65, 95, 88]。、以及循环和判断语句，此外还对debugger工具的简单使用有了一定的了解（包括断点的设置。循环结束后，计算平均分 average_score（总分除以分数的个数）。使用 for 循环遍历 scores 列表中的每一个分数。所有分数的平均分（结果包含3位小数）。优秀分数（>=90）的个数。、单步运行等基本操作）。

2025-11-03 19:45:58 275

原创 DAY2字符串操作与比较字符串

定义两个字符串变量,str1 赋值为 "Hello",str2 赋值为 "Python"。2、明确了字符串的基本操作 --- 字符串的拼接、字符串的索引、字符串的切片。将这两个字符串拼接起来(中间加一个空格),存储在变量 greeting 中。1、如何在vscode中查看相应的变量 --- 利用ipynb中的。计算 greeting 字符串的长度,存储在变量 length 中。提取中间的5个字符(nProg),存储在变量 middle 中。将 score 转换为字符串,存储在 score_str 中。

2025-11-02 19:14:04 789

原创 DAY1 变量与格式化字符串练习

自我学习笔记DAY1

2025-11-01 21:25:40 328

m0_74625041的博客