自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 Python训练营打卡DAY 31 文件的规范拆分和写法

因为,在 Python 2.x 时代,默认编码是 ASCII,不支持直接在代码中写入非 ASCII 字符(如中文注释、字符串中的中文),否则会报错(SyntaxError: Non-UTF-8 code starting with…另一个是pylance,用于代码提示和类型检查,这个插件会根据你的代码中的类型注解,给出相应的提示和检查,比如你定义了一个函数,参数类型是int,那么当你传入一个字符串时,它会提示你传入的参数类型不正确。规范的py文件,首行会有:# -- coding: utf-8 --

2025-08-15 09:25:50 328

原创 Python训练营打卡DAY 30 模块和库的导入

模块(Module)本质:以 .py 结尾的单个文件,包含Python代码(函数、类、变量等)。作用:将代码拆分到不同文件中,避免代码冗余,方便复用和维护。包(Package)在python里,包就是库本质:有层次的文件目录结构(即文件夹),用于组织多个模块和子包。核心特征:包的根目录下必须包含一个 __init__.py 文件(可以为空),用于标识该目录是一个包。IDE(如 VSCode 或 PyCharm)通常会将你打开的项目文件夹设为“根目录”(或者说,运行时的工作目录)。

2025-08-14 09:44:11 551

原创 Python训练营打卡DAY 29 复习日:类的装饰器

复习类和函数的知识点,写下自己过去29天的学习心得,如对函数和类的理解,对python这门工具的理解等,未来再过几个专题部分我们即将开启深度学习部分。装饰器思想的进一步理解:外部修改、动态。类方法的定义:内部定义和外部定义。

2025-08-13 09:15:00 167

原创 Python训练营打卡DAY 28 类的定义和方法

知识点回顾:类的定义pass占位语句类的初始化方法类的普通方法类的继承:属性的继承、方法的继承作业题目1:定义圆(Circle)类要求:包含属性:半径 radius。包含方法:calculate_area():计算圆的面积(公式:πr²)。calculate_circumference():计算圆的周长(公式:2πr)。初始化时需传入半径,默认值为 1。题目2:定义长方形(Rectangle)类包含属性:长 length、宽 width。

2025-08-12 09:26:17 255

原创 Python训练营打卡DAY 27 函数专题2:装饰器

ps:第一期day27对应5月16日知识点回顾:装饰器的思想:进一步复用函数的装饰器写法注意内部函数的返回值作业:编写一个装饰器 logger,在函数执行前后打印日志信息(如函数名、参数、返回值)本期内容如果无法理解,可以参考如下视频教学以下是一个实现函数执行日志功能的装饰器logger。

2025-08-11 09:17:27 269

原创 Python训练营打卡DAY 26 函数专题1:函数定义与参数

知识点回顾:函数的定义变量作用域:局部变量和全局变量函数的参数类型:位置参数、默认参数、不定参数传递参数的手段:关键词参数传递参数的顺序:同时出现三种参数类型时作业:题目1:计算圆的面积任务:编写一个名为 calculate_circle_area 的函数,该函数接收圆的半径 radius 作为参数,并返回圆的面积。圆的面积 = π * radius² (可以使用 math.pi 作为 π 的值)要求:函数接收一个位置参数 radius。计算半径为5、0、-1时候的面积。

2025-08-10 21:23:56 1669

原创 Python训练营打卡DAY 25 异常处理

避免意外捕获: 如果把“成功后的后续步骤”也放在 try 块里,而这些步骤本身也可能引发 try 块想要捕获的同类型异常,那么就会导致逻辑混淆。更准确的理解: else 子句中的代码是你希望在 try 块中的代码成功完成且没有引发任何异常之后才执行的代码。如果 try 失败:try 块中出错前的代码会执行,然后匹配的 except 块的代码会执行(else 块不会执行)。如果 try 成功:try 块的代码会执行,然后 else 块的代码也会执行。except: 处理在 try 块中发生的特定异常。

2025-08-09 09:48:28 507

原创 Python训练营打卡DAY 24 元组和OS模块

可以看到,元组最重要的功能是在列表之上,增加了不可修改这个需求。简单来说,一个可迭代对象就是指那些能够一次返回其成员(元素)的对象,让你可以在一个循环(比如 for 循环)中遍历它们。名称用于在后续访问或设置参数时引用该步骤,而对象则是实际执行数据转换或模型训练的工具。2. 元组中的元素不能修改,这一点非常重要,深度学习场景中很多参数、形状定义好了确保后续不能被修改。管道工程中pipeline类接收的是一个包含多个小元组的 列表 作为输入。对自己电脑的不同文件夹利用今天学到的知识操作下,理解下os路径。

2025-08-08 09:27:39 310

原创 Python训练营打卡DAY 23 pipeline

转换器(transformer)是一个用于对数据进行预处理和特征提取的 estimator,它实现一个 transform 方法,用于对数据进行预处理和特征提取。在管道机制中,可以使用Pipeline类来组织和连接不同的转换器和估计器。之所以提到管道,是因为后续你在阅读一些经典的代码的时候,尤其是官方文档,非常喜欢用管道来构建代码,甚至深度学习中也有类似的代码,初学者往往看起来很吃力。在机器学习中,通常会按照一定的顺序对数据进行预处理、特征提取、模型训练和模型评估等步骤,以实现机器学习模型的训练和评估。

2025-08-07 10:50:29 683

原创 Python训练营打卡DAY 22 复习日

自行学习参考如何使用kaggle平台,写下使用注意点,并对下述比赛提交代码。仔细回顾一下之前21天的内容,没跟上进度的同学补一下进度。

2025-08-06 10:08:10 149

原创 Python训练营打卡DAY 21 常见的降维算法

自由作业:探索下什么时候用到降维?或者让ai给你出题,群里的同学互相学习下。可以考虑对比下在某些特定数据集上t-sne的可视化和pca可视化的区别。还有一些其他的降维方式,也就是最重要的词向量的加工,我们未来再说。

2025-08-04 09:46:28 318

原创 Python训练营打卡DAY 20 奇异值SVD分解

知识点回顾:线性代数概念回顾(可不掌握)奇异值推导(可不掌握)奇异值的应用特征降维:对高维数据减小计算量、可视化数据重构:比如重构信号、重构图像(可以实现有损压缩,k 越小压缩率越高,但图像质量损失越大)降噪:通常噪声对应较小的奇异值。通过丢弃这些小奇异值并重构矩阵,可以达到一定程度的降噪效果。推荐系统:在协同过滤算法中,用户-物品评分矩阵通常是稀疏且高维的。

2025-08-03 20:41:53 1400

原创 Python训练营打卡DAY 19 常见的特征筛选算法

2.4树模型重要性:threshold=""不只有mean一种,还有其他的,我列了三条,发现threshold="0.5*mean",效果最好,accuracy是0.85。2.3lasso筛选:这个里面的alpha参数填0.02-0.03是最好的,accuracy达到0.85。2.6递归特征消除REF:选10个特征时表现最好,accuracy是0.85。2.2皮尔逊相关系数筛选:当我k是7而不是全部特征时,效果最好达到了0.87。2.5shap重要性:表现最差,k怎么改都达不到0.7。

2025-08-02 12:18:36 143

原创 Python训练营打卡DAY 18 推断聚类后簇的类型

1. 确定对聚类特征贡献最大的四个特征X.columnsx1= X.drop('KMeans_Cluster',axis=1) # 删除聚类标签列# 构建随机森林,用shap重要性来筛选重要性from sklearn.ensemble import RandomForestClassifier # 随机森林分类器model = RandomForestClassifier(n_estimators=100, random_state=42) # 随机森林模型。

2025-08-01 09:36:34 331

原创 Python训练营打卡DAY 17 常见聚类算法

知识点。

2025-07-31 16:03:02 257

原创 Python训练营打卡DAY 16 数组的常见操作和形状

在后续进行频繁的数学运算时,尤其是在深度学习领域,对 NumPy 数组的理解非常有帮助,因为 PyTorch 或 TensorFlow 中的 Tensor 张量本质上可以视为支持 GPU 加速和自动微分的 NumPy 数组。NumPy 数组的维度 (Dimension) 或称为 轴 (Axis) 的概念,与我们日常理解的维度非常相似。矩阵乘法:需要满足第一个矩阵的列数等于第二个矩阵的行数,和线代的矩阵乘法算法相同。矩阵点乘:需要满足两个矩阵的行数和列数相同,然后两个矩阵对应位置的元素相乘。

2025-07-30 15:54:51 257

原创 Python训练营打卡DAY 15 复习日

复习日仔细回顾一下之前14天的内容,没跟上进度的同学补一下进度。作业:尝试找到一个kaggle或者其他地方的结构化数据集,用之前的内容完成一个全新的项目,这样你也是独立完成了一个专属于自己的项目。要求:有数据地址的提供数据地址,没有地址的上传网盘贴出地址即可。尽可能与他人不同,优先选择本专业相关数据集探索一下开源数据的网站有哪些?我将基于Kaggle上的"Electric Motor Temperature"数据集完成一个完整的电机温度与故障预测项目。

2025-07-29 13:50:59 391

原创 Python训练营打卡DAY 14 SHAP图的绘制

SHAP图介绍今日作业偏思考类型,有一定难度参考上述文档补全剩余的几个图尝试确定一下shap各个绘图函数对于每一个参数的尺寸要求,如shap.force_plot力图中的数据需要满足什么形状?确定分类问题和回归问题的数据如何才能满足尺寸,分类采取信贷数据集,回归采取单车数据集。

2025-07-28 09:02:58 294

原创 Python训练营打卡DAY 13 不平衡数据的处理

随机过采样的优点是,它可以增加少数类的样本数,从而提高模型的泛化能力。小随机过采样的缺点是,它可能会增加训练集的大小,从而增加训练时间。此外,它可能会增加噪声,并且可能会增加模型的偏差。在处理类别不平衡的数据集时,标准机器学习算法(如默认的随机森林)可能会过度偏向多数类,导致对少数类的预测性能很差。对于少数类中的每个样本,计算它与少数类中其他样本的距离,得到其k kk近邻(一般k kk取5或其他合适的值)。类别权重:这种方法在模型训练阶段介入,通过调整不同类别样本对损失函数的贡献来影响模型的学习过程。

2025-07-27 15:21:19 405

原创 Python训练营打卡DAY 12 启发式算法

我会查看今天每个人写的作业,只需要选择其中一个算法解释即可,(觉得自己写的好的可以私信我),并在凌晨选出每个算法解释最好的同学发40元红包表示鼓励。的思路为主,尝试检索资料、视频、文档,用尽可能简短但是清晰的语言看是否能说清楚这三种算法每种算法的实现逻辑,帮助更深入的理解。ps:我之前写论文也用过这几种算法,也是纯借鉴对于实际实现逻辑没有了解过。三种启发式算法的示例代码:遗传算法、粒子群算法、退火算法。学习优化算法的思路(避免浪费无效时间)

2025-07-26 19:20:03 154

原创 Python训练营打卡DAY 11 常见的调参方式

对于信贷数据的其他模型,如LightGBM和KNN 尝试用下贝叶斯优化和网格搜索。贝叶斯优化(2种实现逻辑,以及如何避开必须用交叉验证的问题)随机搜索(简单介绍,非重点 实战中很少用到,可以不了解)time库的计时模块,方便后人查看代码运行时长。

2025-07-25 11:04:31 205

原创 Python训练营打卡DAY 10 机器学习建模与评估

今日代码比较多,但是难度不大,仔细看看示例代码,好好理解下这几个评估指标。尝试对心脏病数据集采用机器学习模型建模和评估。机器学习模型建模的三行代码。机器学习模型分类问题的评估。

2025-07-24 21:02:09 203

原创 Python训练营打卡DAY9 热力图和子图的绘制

知识点:热力图和子图的绘制介绍了热力图的绘制方法介绍了enumerate()函数介绍了子图的绘制方法作业:尝试对着心脏病数据集绘制热力图和单特征分布的大图(包含几个子图).corr()函数默认计算皮尔逊相关系数;heatmap中的参数分别表示相关系数矩阵、显示具体的相关系数数值、配色方案和颜色映射的数值范围。从图中可得出:颜色较浅的部分(偏灰色部分),相关系数的绝对值较小,表示两个变量之间的相关性较弱。例如thalach列与chol列的相关性较弱,相关系数为-0.0099。

2025-07-23 22:35:09 244

原创 Python训练营打卡DAY 8 标签编码与连续变量处理

对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理,尝试手动完成,多敲几遍代码。连续特征归一化和标准化:age、trestbps、chol、thalach、oldpeak。标签编码:适用于有序分类变量、树模型、内存 / 计算资源受限,如slope,ca。slope 运动时 ST 段峰值的斜率:0=上升1=水平2=下降。独热编码:适用于无序分类变量,如cp,restecg,thal。不编码:只有0和1,如sex,fbs,exang,target。根据医学知识,4<3<2<1<0。

2025-07-22 22:16:40 225

原创 Python训练营打卡DAY 7 复习日

这张图中的 Day 7 明确标注为“复习日”,目的是帮助学员系统地回顾和巩固前六天所学的内容(变量、字符串、列表、循环、判断、缺失值处理、独热编码、描述性统计)。​ 系统回顾前六天的关键概念和技能,建立知识间的联系,并通过综合练习提升应用能力,查漏补缺。

2025-07-21 21:55:40 592

原创 Python训练营打卡DAY 6 描述性统计

【代码】Python训练营打卡DAY 6 描述性统计。

2025-07-20 22:09:45 231

原创 Python训练营打卡DAY 5 独热编码

可以鼠标悬停来查看每个函数的参数,这里采用了类型注解写法,可以看到每个参数的要求类型,同时可以看到参数的默认值,如果没有默认值就是必填参数。注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看。现在在py文件中 一次性处理data数据中所有的连续变量和离散变量。类型,实际中还需要结合对数据的认识,这里为了方便没有考虑现实意义。3. 对独热编码后的变量转化为int类型。2. 对离散变量进行one-hot编码。随着学习往后,需要了解的函数越来越多。题目:离散特征的独热编码。

2025-07-19 23:02:55 204

原创 Python训练营打卡DAY 4 缺失值的处理

打开数据(csv文件、excel文件)查看数据(尺寸信息、查看列名等方法)查看缺失值---true代表缺失。1. csv--绝对路径。利用循环补全所有列的空值。众数、中位数填补空值。

2025-07-18 22:10:35 187

原创 Python训练营打卡DAY 3 列表、循环和判断语句

题目1:列表的基础操作题目创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。获取列表中的第一个元素,并将其存储在变量 first_tech 中。向 tech_list 的末尾添加一个新的字符串元素 “JavaScript”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。移除列表中的元素 “Go”。

2025-07-17 11:11:42 1285 1

原创 Python训练营打卡DAY 2 字符串与比较运算

题目: 定义两个整数变量,score_a 赋值为 75,score_b 赋值为 90。比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;比较 score_a 是否不等于 score_b,将结果存储在变量 is_different 中。题目: 定义两个字符串变量,str1 赋值为 “Hello”,str2 赋值为 “Python”。

2025-07-16 11:24:19 286

原创 Python训练营打卡Day1 变量与格式化字符串

浙大疏锦行知识点:变量的命名和定义debug工具的使用(pycharm和vscode)print函数题目1:变量的认识题目定义三个变量abc,并分别将整数123赋值给它们。然后,使用print()函数将每个变量的值单独打印出来,每个值占一行。输入无输出123。

2025-07-15 21:30:32 446

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除