自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Day 25:5.16

编写一个名为 calculate_circle_area 的函数,该函数接收圆的半径 radius 作为参数,并返回圆的面积。编写一个名为 calculate_average 的函数,该函数可以接收任意数量的数字作为参数(引入可变位置参数 (*args)),并返回它们的平均值。编写一个名为 print_user_info 的函数,该函数接收一个必需的参数 user_id,以及任意数量的额外用户信息(作为关键字参数)。函数的参数类型:位置参数、默认参数、不定参数。user_id 是一个必需的位置参数。

2025-05-16 23:06:59 893

原创 Day 24: 5.15

DAY 25 异常处理知识点回顾:异常处理机制debug过程中的各类报错try-except机制try-except-else-finally机制在即将进入深度学习专题学习前,我们最后差缺补漏,把一些常见且重要的知识点给他们补上,加深对代码和流程的理解。作业:理解今日的内容即可,可以检查自己过去借助ai写的代码是否带有try-except机制,以后可以尝试采用这类写法增加代码健壮性。

2025-05-15 23:08:48 197

原创 Day 23: 5.13

对自己电脑的不同文件夹利用今天学到的知识操作下,理解下os路径。

2025-05-13 22:41:25 231

原创 Day 22: 5.12

整理下全部逻辑的先后顺序,看看能不能制作出适合所有机器学习的通用pipeline。ColumnTransformer和Pipeline类。pipeline管道。转化器和估计器的概念。

2025-05-12 23:01:13 251

原创 Day 21: 5.11

复习日仔细回顾一下之前21天的内容,没跟上进度的同学补一下进度。作业:自行学习参考如何使用kaggle平台,写下使用注意点,并对下述比赛提交代码。

2025-05-11 23:04:34 241

原创 Day 20: 5.10

奇异值SVD分解知识点回顾:线性代数概念回顾(可不掌握)奇异值推导(可不掌握)奇异值的应用特征降维:对高维数据减小计算量、可视化数据重构:比如重构信号、重构图像(可以实现有损压缩,k 越小压缩率越高,但图像质量损失越大)降噪:通常噪声对应较小的奇异值。通过丢弃这些小奇异值并重构矩阵,可以达到一定程度的降噪效果。推荐系统:在协同过滤算法中,用户-物品评分矩阵通常是稀疏且高维的。

2025-05-10 23:17:41 294

原创 Day 19:5.9

推荐系统:在协同过滤算法中,用户-物品评分矩阵通常是稀疏且高维的。SVD (或其变种如 FunkSVD, SVD++) 可以用来分解这个矩阵,发现潜在因子 (latent factors),从而预测未评分的项。这里其实属于特征降维的部分。数据重构:比如重构信号、重构图像(可以实现有损压缩,k 越小压缩率越高,但图像质量损失越大)降噪:通常噪声对应较小的奇异值。通过丢弃这些小奇异值并重构矩阵,可以达到一定程度的降噪效果。特征降维:对高维数据减小计算量、可视化。奇异值推导(可不掌握)

2025-05-09 23:11:01 207

原创 Day 18: 5.8

常见的特征筛选算法方差筛选皮尔逊相关系数筛选lasso筛选树模型重要性shap重要性递归特征消除REF作业:对心脏病数据集完成特征筛选,对比精度1. 方差筛选。

2025-05-08 23:20:14 242

原创 Day17: 5.7

参考示例代码对心脏病数据集采取类似操作,并且评估特征工程后模型效果有无提升。推断簇含义的2个思路:先选特征和后选特征。科研逻辑闭环:通过精度判断特征工程价值。通过可视化图形借助ai定义簇的含义。聚类后的分析:推断簇的类型。

2025-05-07 23:25:42 121

原创 Day 16: 5.6

实际在论文中聚类的策略不一定是针对所有特征,可以针对其中几个可以解释的特征进行聚类,得到聚类后的类别,这样后续进行解释也更加符合逻辑。DBSCAN 的参数是 eps 和min_samples,选完他们出现k和评估指标。除了经典的评估指标,还需要关注聚类出来每个簇对应的样本个数,避免太少没有意义。聚类常见算法:kmeans聚类、dbscan聚类、层次聚类。KMeans 和层次聚类的参数是K值,选完k指标就确定。以及层次聚类的 linkage准则等都需要仔细调优。选择合适的算法,根据评估指标调参( )

2025-05-06 23:19:45 145

原创 Day15 : 5.5

因为前天说了shap,这里涉及到数据形状尺寸问题,所以需要在这一节说清楚,后续的神经网络我们将要和他天天打交道。知识点:numpy数组的创建:简单创建、随机创建、遍历、运算numpy数组的索引:一维、二维、三维SHAP值的深入理解作业:今日知识点比较多,好好记忆下。

2025-05-05 23:29:03 219

原创 Day 14: 5.4

SHAP图介绍今日作业偏思考类型,有一定难度参考上述文档补全剩余的几个图尝试确定一下shap各个绘图函数对于每一个参数的尺寸要求,如shap.force_plot力图中的数据需要满足什么形状?确定分类问题和回归问题的数据如何才能满足尺寸,分类采取信贷数据集,回归采取单车数据集。

2025-05-04 22:26:53 327

原创 Day 13: 5.2

知识点复习不平衡数据集的处理策略:过采样、修改权重、修改阈值交叉验证代码作业:从示例代码可以看到 效果没有变好,所以很多步骤都是理想是好的,但是现实并不一定可以变好。这个实验仍然有改进空间,如下。1. 我还没做smote+过采样+修改权重的组合策略,有可能一起做会变好。2. 我还没有调参,有可能调参后再取上述策略可能会变好。

2025-05-02 14:59:54 259

原创 Day12: 5.1

的思路为主,尝试检索资料、视频、文档,用尽可能简短但是清晰的语言看是否能说清楚这三种算法每种算法的实现逻辑,帮助更深入的理解。:生成初始解 → 随机扰动生成新解 → 若更优则接受,否则以概率接受(概率随温度降低而减小)→ 降温后重复至收敛。:随机初始化粒子(位置+速度)→ 计算个体最优和全局最优 → 更新速度和位置(趋近最优)→ 迭代至稳定。:生成随机解(基因编码)→ 适应度评估 → 选优淘汰 → 基因重组 → 引入随机变异 → 迭代至收敛。:避免局部最优,适合单解迭代问题。:简单高效,适合连续空间优化。

2025-05-01 20:37:58 272

原创 Day11: 4.30

超参数调整专题1知识点回顾网格搜索随机搜索(简单介绍,非重点 实战中很少用到,可以不了解)贝叶斯优化(2种实现逻辑,以及如何避开必须用交叉验证的问题)time库的计时模块,方便后人查看代码运行时长今日作业:对于信贷数据的其他模型,如LightGBM和KNN 尝试用下贝叶斯优化和网格搜索一.LightGBM用贝叶斯优化和网格搜索。

2025-04-30 22:23:59 210

原创 Day10: 4.29

今日代码比较多,但是难度不大,仔细看看示例代码,好好理解下这几个评估指标。尝试对心脏病数据集采用机器学习模型建模和评估。机器学习模型建模的三行代码。机器学习模型分类问题的评估。

2025-04-29 22:19:38 228

原创 Day9: 4.28

热力图和子图的绘制知识点:介绍了热力图的绘制方法介绍了enumerate()函数介绍了子图的绘制方法作业:尝试对着心脏病数据集绘制热力图和单特征分布的大图(包含几个子图)1.热力图的绘制方法热力图本质上只能对连续值进行绘制,对于数值形的离散值其实是不合适用热力图的enumerate()函数enumerate()函数返回一个迭代对象,该对象包含索引和值。语法:参数:iterable -- 迭代对象,迭代对象可以是列表、元组、字典、字符串等。

2025-04-28 21:13:15 452

原创 Day8: 4.27

对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理,尝试手动完成,多敲几遍代码。连续特征的处理:归一化和标准化。至此,常见的预处理方式都说完了。

2025-04-27 21:50:32 198

原创 Day7: 4.26

总结:今日的难点在于将此数据中的特征按照医学知识划分为连续特征和离散特征,并将离散特征。# 将"female"编码为0,将"male"编码为1。按医学知识将离散特征选出来为‘object’# 对object数据类型进行编码。将特征的名字改的便于认识。# 下面的编码方式类似。

2025-04-26 22:19:36 339

原创 Day7: 已修改

针对之前学到的所有知识,针对心脏病项目的数据集来完成数据的预处理。

2025-04-26 21:18:37 190

原创 Day6:4.25

数据初步可视化内容回顾:单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图特征和标签关系可视化箱线图美化--->直方图作业:去针对其他特征绘制单特征图和特征和标签的关系图,并且试图观察出一些有意思的结论。

2025-04-25 21:00:23 274

原创 Day5:4.24

注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看。现在在py文件中 一次性处理data数据中所有的连续变量和离散变量。注意此时你可以借助下面的调试控制台 来进行值的查看。3. 对独热编码后的变量转化为int类型。3. 对独热编码后的变量转化为int类型。先按照示例代码过一遍,然后完成下列题目。2. 对离散变量进行one-hot编码。2. 对离散变量进行one-hot编码。4.对所有缺失值进行填充。4.对所有缺失值进行填充。1. 读取data数据。1. 读取data数据。

2025-04-24 19:57:38 215

原创 Day4:4.23

初识pandas库与缺失数据的补全按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值打开数据(csv文件、excel文件)查看数据(尺寸信息、查看列名等方法)查看空值众数、中位数填补空值利用循环补全所有列的空值完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯1.打开数据(csv文件、excel文件)

2025-04-23 22:12:25 245

原创 Day 3:4.22

题目:创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。获取列表中的第一个元素,并将其存储在变量 first_tech 中。向 tech_list 的末尾添加一个新的字符串元素 “JavaScript”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。移除列表中的元素 “Go”。计算当前 tech_list 的长度,并将结果存储在变量 current_length 中。

2025-04-22 16:28:42 913 1

原创 Day 2: 4.21

2.题目: 定义两个整数变量,score_a 赋值为 75,score_b 赋值为 90。比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;比较 score_a 是否不等于 score_b,将结果存储在变量 is_different 中。获取 greeting 字符串的第一个字符,存储在变量 first_char 中。

2025-04-21 21:20:09 325

原创 Day 1: 4.20

一:了解变量和输出知识点:变量的命名和定义debug工具的使用(pycharm和vscode)print函数定义三个变量abc,并分别将整数123赋值给它们。然后,使用print()函数将每个变量的值单独打印出来,每个值占一行。如何只用一个print()函数调用就实现上面分三行的输出效果?(提示:换行符\n格式化字符串。

2025-04-20 22:55:12 300

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除