PJ1ul-优快云博客

原创 DAY17打卡关于numpy

是 Python 中用于的核心库，专注于高效处理和矩阵运算。Array（数组）是计算机编程中一种，元素按固定顺序排列，可通过访问。

2025-06-03 23:46:27 627

这就像“分蛋糕”：每个特征贡献自己的一块（SHAP 值），最后总和加上“默认蛋糕”（基准值）就是你得到的整块蛋糕（模型预测值）。shap_values # 每一行代表一个样本，每一列代表一个特征，值表示该特征对该样本的预测结果的影响程度。对实例化的模型输入一些已知条件，然后模型根据输入进行训练（内参），最终训练完的模型可以对该条件输出预测结果。自定义变量=shap库中的. 专门用来解析树模型的「翻译官」（这是训练好的随机森林模型），通过量化每个特征对模型预测的贡献，为机器学习模型提供可解释性。

2025-06-01 23:32:15 2517

原创 DAY15打卡不平衡数据的处理

知识点：不平衡数据集的处理策略：过采样、修改权重、修改阈值交叉验证代码不平衡数据集少数类别的样本数量远少于多数类别，导致模型在训练时偏向多数类，影响对少数类的预测效果。例如：欺诈检测（欺诈交易占1%，正常交易占99%）、疾病诊断（患病样本仅占5%）

2025-05-31 23:55:58 679

原创 DAY14打卡启发式算法

表现好的个体（高验证分）更有机会“繁殖”（它们的参数组合会被借鉴和混合），并可能发生“变异”（参数随机小改动），产生下一代。它会记住自己飞过的最好位置，也会参考整个“鸟群”发现的最好位置，结合这两者来调整自己的飞行方向和速度，同时带点随机性。应用感觉：像一个有点“冲动”的探险家，初期愿意尝试一些看起来不太好的路径（为了跳出局部最优的小山谷），后期则越来越“保守”，专注于在当前找到的好区域附近精细搜索。应用感觉：像是一群探险家，既有自己的探索记忆，也会互相交流信息（全局最佳位置），集体协作寻找目标。

2025-05-30 23:58:27 801

原创 DAY13打卡常见的调参方式

print("最佳参数: ", grid_search.best_params_) #best_params_属性返回最佳参数组合。'min_samples_split': Integer(2, 10), # 分裂节点最小样本数范围。'n_estimators': Integer(50, 200), # 随机森林树的数量范围。best_model = grid_search.best_estimator_ # 获取最佳模型。

2025-05-21 23:19:12 1747

原创 DAY12打卡训练+预测

训练集形状: (6000, 31), 测试集形状: (1500, 31) （行数，列数）3. 缺失值处理 data.isnull().sum() data[ ].fillna( ,inplace=Ture)数据类型转换-处理object data[i] = data[i].astype(int) ——先填补缺失值，再独热编码。print(f"F1 值: {print(f"精确率: {

2025-05-20 23:54:01 654

原创 DAY11打卡绘制热力图和子图

知识点：热力图和子图的绘制1、热力图的绘制的参数会覆盖rcParams的默认值。rcParams字典键值对形式函数参数形式plt.rc()annot=True可添加fmt='.2f'控制小数位数可选其他配色方案如（红黄蓝）或（亮度渐变）

2025-05-19 02:48:49 868

原创 DAY10打卡连续变量处理2

13 target 303 non-null int64 0=无心脏病/低风险，1=有心脏病/高风险。7 thalach 303 non-null int64 运动测试中达到的最大心率。10 slope 303 non-null int64 运动峰值ST段的斜率。11 ca 303 non-null int64 荧光透视显示的。8 exang 303 non-null int64 运动诱发的心绞痛。

2025-05-17 23:41:43 396

原创 DAY9打卡独热编码2+连续变量处理

字典的键值对，键是唯一的，值可以重复。这很符合数据的特征是固定的，但是值可以变化这个特性。“年龄”不同用户的年龄可能是25、30、45。

2025-05-06 23:57:32 404

原创 DAY8打卡独热编码

DataFrame['列名'] = DataFrame['列名'].astype(dtype,在数据预处理（如独热编码）中，分类变量常被转换为布尔值（例如：某列表示“是否有房贷”，的元素（类似集合的差集——独热编码新生成的列）。但布尔类型可能与某些数学函数或库。3. 对独热编码后的变量转化为int类型。在py文件中一次性处理data数据中。2. 对离散变量进行one-hot编码。离散特征中什么样算有序，什么样算无序？（内容为TRUEorFALSE）补全信贷数据集中的数值型缺失值。1. 读取data数据。

2025-05-03 23:58:52 420

原创 DAY7打卡数据可视化1

数据处理和分析的库给这个库起一个简短的别名。：Seaborn 的箱线图函数。对象（类似列表，但属于 pandas 的特殊结构）获取筛选后的 DataFrame 的列名。sns.histplot（） ——直方图。xlabel ——设置 x 轴标签。ylabel ——设置 y 轴标签。sns.boxplot（） ——箱线图。（比如x轴和y轴的标签，以及标题）比如折线图，散点图，柱状图等）、比如x轴和y轴，并且传入数据）、title ——设置标题。：指定支持中文的字体。

2025-04-29 23:59:08 343

原创 DAY6打卡处理缺失值2

pd.get_dummies( data, # 必填：要处理的 DataFrame。columns=['列名1', '列名2', ...], # 必填：需独热编码的列名列表)的函数，它的作用是将分类变量（如文本、离散值）转换为。对比独热编码前后的列名，找到所有独热编码后的新特征名。value_counts()用于。分类数据（如文本、离散数值）不具备顺序关系，因此可以采用。以Purpose为例。

2025-04-28 23:55:33 1758

原创 DAY5打卡处理缺失值1

自动找出数据中所有数值型的列，如果这些列有缺失值（比如NaN），就用该列的平均值填充缺失值，最后检查填充后是否还有缺失值。注：在python中对于变量名常常用英文含义和下划线来命名，而不借助拼音，这是便于他人阅读和理解代码的一种习惯。对象（如 Series、DataFrame）中的数据，转换为 Python 原生的列表（——连续的英文是continuous，离散的英文是discrete。离散特征：discrete_features。让数据从“高级格式”变成“普通列表”，2、打印所有的离散变量名。

2025-04-27 23:58:38 300

原创 DAY4打卡 pandas库

—初识pandas库与缺失数据的补全Pandas 是一个基于 Python 编程语言的开源库，专门用于。

2025-04-26 23:53:38 715

原创 DAY3打卡知识补充3

1、列表的基础操作题目:创建一个包含三个字符串元素的列表tech_list，元素分别为 “Python”, “Java”, “Go”。列表中的第一个元素，并将其存储在变量 first_tech 中。同字符串的获取，但向 tech_list 的末尾一个新的字符串元素append()extend()+=extend()+=

2025-04-25 21:58:23 711

原创 DAY2打卡知识补充2

1、字符串的操作题目: 定义两个字符串变量，str1 赋值为 “Hello”，str2 赋值为 “Python”。①将这两个字符串拼接起来（中间加一个空格），并将结果存储在变量 greeting 中；②计算 greeting 字符串的长度，存储在变量 length 中；③获取 greeting 字符串的第一个字符，存储在变量 first_char 中。④然后，使用 f-string 分三行打印出类似以下格式的信息：拼接结果: Hello Python字符串长度: 12。

2025-04-24 23:33:09 263

原创 DAY1打卡简单的python知识

计算这两个变量的和，并将结果存储在一个新的变量 a 中；计算这两个变量的余数，叫做c。然后，使用 f-string 打印出类似 “20 加 8 的结果是：28” 的信息，分成三行打印。1、变量的命名和定义 ——语句很简洁“a=1”，字符串——（"字符串"）英文状态下的双引号；print(f'姓名：“{name}”，城市：{city}')print("a =", a) # 输出 a = 5。函数将每个变量的值单独打印出来，每个值占一行。print("a") # 输出 a （字符串）

2025-04-23 23:09:15 805 1

PJ1ul的博客