- 博客(27)
- 收藏
- 关注
原创 Day18 Pyhton Study
比如 “龙虾 + 50 元” 和 “靠窗位 + 20 元” 的贡献是分开的,不会因为点了龙虾,靠窗位的 20 元就 “不算数” 或 “变多”—— 每个特征的 SHAP 值都是 “独立核算” 的,最后只做加法。加性解释 = 模型的最终预测结果,是 “基准值” 加上 “所有特征的 SHAP 值” 的总和简单说:就像餐厅算你这桌的总消费,是 “基础人均” 加上 “每道菜、每项服务的加减钱”,最后加出来的结果 —— 没有任何 “隐藏项”,所有影响因素的贡献都能直接叠加,一眼看清 “总结果是怎么来的”。
2025-11-25 23:19:33
608
原创 Day 12 Python Study
通过系统地、顺序地构建一系列“弱”的树模型,其中每一棵新树都专注于纠正前一棵树(或前一系列树)所犯的错误,最终将这些树的结果组合成一个非常强大且精确的模型。reg_alpha : [ 0.000, 10.000] (范围: 10.000)reg_lambda : [ 0.000, 10.000] (范围: 10.000)对其他模型尝试贝叶斯可视化,并且选择一个模型试着去理解它背后的思想。将集合元素分散到变量中。
2025-11-13 15:44:06
372
原创 Day 10 Python Study
机器学习的流程顺序-----不要数据泄露(归一化器在划分数据集后)异常值的处理---箱线图去除异常值的思想和迭代问题。尝试对心脏病数据集采用机器学习模型建模和评估。机器学习模型建模的三行代码。机器学习模型分类问题的评估。
2025-11-10 17:18:59
309
原创 Day 9 Python Study
修改`sns.boxplot()`为`sns.violinplot()尝试用子图拼接的形式来构建心脏病数据集的图的排版,完成下面5张图。特征与标签关系的在一起(连续变量一起;离散变量一起)2张图。图像可以自行探索形态,比如箱线图可以修改为小提琴构图,如。单特征的拼接在一起(连续变量一起;离散变量一起)2张图。,还有很多其他的形态可以借助AI学习。热力图调试到满意的样式。
2025-11-09 17:16:19
266
原创 Day 8 Python Study
对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理。对独热编码的深入理解----n个不相关变量只有n-1个自由的。----一般选一个即可,谁好谁坏做了才知道,除非有先验知识。从可视化中可以看出,患病人群的胆固醇水平较高。数据可视化(单特征、单特征与标签)从中可以看出,本数据集并无缺失值。连续特征的处理:归一化和标准化。至此,常见的预处理方式都说完了。连续特征的归一化or标准化。
2025-11-08 12:05:42
215
原创 Day 7 Py Study
对比不同年龄患病情况,可以看出,女性患病的比例要高于男性(0=女性,1=男性)可以得到该心脏病数据,共有303个样本,1个标签,12个特征。对比不同心率下的患病人数,可以看出,患有心脏病的人心率偏高。3.离散变量独热编码。
2025-11-07 16:57:40
117
原创 Day 6 Pyhton Study
根据住房状态该特征与信贷违约标签的比较,从中可得出,租房和具有房屋贷款的人违约率较高,而拥有房产的人违约较少。去针对其他特征绘制单特征图和特征和标签的关系图,并且试图观察出一些有意思的结论。单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图。特征可视化,对于连续特征可用箱线图,离散可用直方图。从中可以得出,月欠债该特征对于标签的影响很有限。内容回顾:数据初步可视化。箱线图美化--->直方图。特征和标签关系可视化。
2025-11-06 15:41:49
150
原创 Day5 Python Study
2.填补缺失值(离散+连续) 首先用均值填补连续特征的缺失值,之后用众数填补离散变量的缺失值。对离散特征编码,可采用标签编码和独热编码。对于特征之间本身不存在顺序关系,可采用独热编码。注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看。现在在py文件中 一次性处理data数据中所有的连续变量和离散变量。4. 对独热编码后的变量转化为int类型。先按照示例代码过一遍,然后完成下列题目。3. 对离散变量进行one-hot编码。题目:离散特征的独热编码。
2025-11-05 19:30:47
203
原创 Day4 Python Study
题目:初识pandas库与缺失数据的补全。打开数据(csv文件、excel文件)打开数据(csv文件、excel文件)去尝试补全信贷数据集中的数值型缺失值。查看数据(尺寸信息、查看列名等方法)查看数据(尺寸信息、查看列名等方法)利用循环补全所有列的空值。利用循环补全所有列的空值。众数、中位数填补空值。众数、中位数填补空值。
2025-11-04 18:55:49
203
原创 Python Study Day 3
range(start, stop, step) # 从 start 开始,步长为 step,到 stop-1。range()` 是 Python 内置函数,用于生成一个整数序列,常用于 for 循环中控制循环次数。定义一个包含整数的列表 scores,赋值为 [85, 92, 78, 65, 95, 88]。循环结束后,计算平均分 average_score(总分除以分数的个数)。- `start`: 起始数字(包含),默认为 0。- `step`: 步长,默认为 1,可以是负数。
2025-11-03 16:45:14
261
原创 Day2 PythonStudy
定义两个字符串变量,str1 赋值为 "Hello",str2 赋值为 "Python"。将这两个字符串拼接起来(中间加一个空格),存储在变量 greeting 中。提取后11个字符(Programming),存储在变量 part2 中。计算 greeting 字符串的长度,存储在变量 length 中。提取中间的5个字符(nProg),存储在变量 middle 中。将 score 转换为字符串,存储在 score_str 中。提取前6个字符(Python),存储在变量 part1 中。
2025-11-02 15:00:48
318
原创 python打卡第一天
计算这两个变量的和,并将结果存储在一个新的变量 a 中;计算这两个变量的商,叫做b;计算这两个变量的余数,叫做c。然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。计算折扣后的价格,并将结果存储在变量。和 f-string,如何让姓名和城市分两行输出?函数将每个变量的值单独打印出来,每个值占一行。将这两个变量组合成一句话并打印出来。如果想在输出的姓名两边加上引号,例如。计算节省了多少钱,存储在变量。存储你所在的城市(字符串,例如。存储你的名字(字符串,例如。
2025-11-01 19:37:29
403
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅