自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Day 21 常见的降维算法

对于像 MNIST 手写数字这样的典型例子,PCA 往往倾向于展示较为模糊的整体趋势;然而需要注意的是,由于 t-SNE 过程引入了一定程度的随机性和敏感参数调整依赖性强等问题,可能导致重复运行结果不完全一致。通过减少数据的维度,不仅可以降低计算复杂度,还能帮助揭示隐藏在高维数据中的结构和模式1。可以考虑对比下在某些特定数据集上t-sne的可视化和pca可视化的区别。还有一些其他的降维方式,也就是最重要的词向量的加工,我们未来再说。能够更好地反映样本间的簇状关系,尤其擅长处理复杂的非线性边界。

2025-05-11 22:37:35 327

原创 Day20 奇异值SVD分解

SVD (或其变种如 FunkSVD, SVD++) 可以用来分解这个矩阵,发现潜在因子 (latent factors),从而预测未评分的项。:在进行 SVD 之前,通常需要对数据进行标准化(均值为 0,方差为 1),以避免某些特征的量纲差异对降维结果的影响。,降维后的数据可以直接用于机器学习模型(如分类、回归),通常能提高计算效率并减少过拟合风险。:通常噪声对应较小的奇异值。(如结构化数据可以变为:样本*特征的矩阵,图像数据天然就是矩阵),新特征是原始特征的线性组合,捕捉了数据的主要方差信息。

2025-05-09 20:23:47 554

原创 DAY 19 常见的特征筛选算法

作业:对心脏病数据集完成特征筛选,对比精度。2.皮尔逊相关系数筛选。6.递归特征消除REF。

2025-05-08 23:07:57 120

原创 DAY 18

参考示例代码对心脏病数据集采取类似操作,并且评估特征工程后模型效果有无提升。聚类后的分析:推断簇的类型。

2025-05-07 23:11:52 192

原创 DAY 17

实际在论文中聚类的策略不一定是针对所有特征,可以针对其中几个可以解释的特征进行聚类,得到聚类后的类别,这样后续进行解释也更加符合逻辑。2.聚类常见算法:kmeans聚类、dbscan聚类、层次聚类。4.原则t-sne或者pca进行2D或3D可视化。2.选择合适的算法,根据评估指标调参( )3.将聚类后的特征添加到原数据中。3.三种算法对应的流程。

2025-05-06 21:56:22 169

原创 DAY 16 数组的创建

因为前天说了shap,这里涉及到数据形状尺寸问题,所以需要在这一节说清楚,后续的神经网络我们将要和他天天打交道。知识点numpy数组的创建简单创建随机创建遍历运算numpy数组的索引一维二维三维SHAP值的深入理解作业今日知识点比较多好好记忆下。

2025-05-05 22:46:30 1828

原创 DAY 14 SHAP图介绍

尝试确定一下shap各个绘图函数对于每一个参数的尺寸要求,如shap.force_plot力图中的数据需要满足什么形状?确定分类问题和回归问题的数据如何才能满足尺寸,分类采取信贷数据集,回归采取单车数据集。今日作业偏思考类型,有一定难度。参考上述文档补全剩余的几个图。三.SHAP 可视化解释。

2025-05-04 21:12:22 415

原创 DAY13 知识点复习

2.SMOTE过采样,核心思想是通过在少数类样本的特征空间中进行插值来合成新的样本。确定少数类标签,修改权重,交叉验证,模型评估。

2025-05-02 22:29:32 183

原创 DAY12 超参数调整专题2

模拟退火算法(Simulated Annealing)是一种受金属退火过程启发的全局优化算法,通过模拟降温过程中的热力学平衡来避免陷入局部最优。通过合理设置参数和扰动方式,模拟退火能有效平衡探索与开发,是解决复杂优化问题的有力工具。允许以一定概率接受比当前解更差的解,随着温度降低逐渐减少这种概率,从而平衡。:避免局部最优,适用于离散/连续、非凸、多峰问题。:极低值(如1e-5),决定算法何时停止。:较高值(如1000),保证充分探索。接受,温度越低接受概率越小。:新解更优,必然接受。连续多次迭代解未改进。

2025-05-01 22:33:54 761

原创 DAY11超参数调整专题1

2种实现逻辑,以及如何避开必须用交叉验证的问题)简单介绍,非重点 实战中很少用到,可以不了解)ightGBM使用贝叶斯优化。

2025-04-30 22:46:03 190

原创 day10机器学习建模与评估

今日代码比较多,但是难度不大,仔细看看示例代码,好好理解下这几个评估指标。2. 读取数据查看数据信息--理解数据。尝试对心脏病数据集采用机器学习模型建模和评估。机器学习模型建模的三行代码。机器学习模型分类问题的评估。

2025-04-29 22:11:07 168

原创 day9热力图和子图的绘制

尝试对着心脏病数据集绘制热力图和单特征分布的大图(包含几个子图)总结:慢慢学习,慢慢体会,记不下来就多写几遍。enumerate()函数。介绍了热力图的绘制方法。介绍了子图的绘制方法。

2025-04-28 21:46:12 210

原创 day7复习日

针对之前学到的所有知识,针对心脏病项目的数据集来完成数据的预处理。

2025-04-26 21:41:12 113

原创 day6数据初步可视

作业:去针对其他特征绘制单特征图和特征和标签的关系图,并且试图观察出一些有意思的结论。总结:收获很大,学习了几种绘图表示,但是代码还需要进一步熟练。单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图。箱线图美化--->直方图。特征和标签关系可视化。

2025-04-25 22:41:20 220

原创 day5 离散特征的独热编码

先按照示例代码过一遍,然后完成下列题目现在在py文件中 一次性处理data数据中所有的连续变量和离散变量1. 读取data数据2. 对离散变量进行one-hot编码可以打印一下独热编码之后的列名3. 对独热编码后的变量转化为int类型4. 对所有缺失值进行填充。

2025-04-24 17:15:07 238

原创 day4 初识pandas库与缺失数据的补全

按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值。打开数据(csv文件、excel文件)查看数据(尺寸信息、查看列名等方法)利用循环补全所有列的空值。众数、中位数填补空值。

2025-04-23 11:13:59 292

原创 day3 列表的基础操作

创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。定义一个包含整数的列表 scores,赋值为 [85, 92, 78, 65, 95, 88]。计算当前 tech_list 的长度,并将结果存储在变量 current_length 中。- 28-35度:打印"黄色预警:天气炎热"- 20-27度:打印"绿色提示:适宜温度"

2025-04-22 12:49:27 312

原创 day 2 字符串的操作

题目: 定义两个整数变量,score_a 赋值为 75,score_b 赋值为 90。比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;比较 score_a 是否不等于 score_b,将结果存储在变量 is_different 中。题目: 定义两个字符串变量,str1 赋值为 “Hello”,str2 赋值为 “Python”。

2025-04-21 09:59:15 306

原创 day 1了解变量和输出

计算这两个变量的和,并将结果存储在一个新的变量 a 中;计算这两个变量的商,叫做b;计算这两个变量的余数,叫做c。然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。计算折扣后的价格,并将结果存储在变量。和 f-string,如何让姓名和城市分两行输出?函数将每个变量的值单独打印出来,每个值占一行。如果想在输出的姓名两边加上引号,例如。计算节省了多少钱,存储在变量。存储你所在的城市(字符串,例如。存储你的名字(字符串,例如。定义两个浮点数变量,

2025-04-20 21:25:08 309

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除