- 博客(52)
- 收藏
- 关注
原创 Python Day52 学习(日志Day21复习)
是 Pandas 和 NumPy 中常用的方法,用于返回某个数组或序列中所有不重复的元素。今日复习到这里,明日接着复习SMOTE。,让模型在学习过程中更加关注某些类别或样本。在随机森林、逻辑回归等模型中,可以通过参数。返回该列中所有不同的取值,结果是一个数组。“加权模型”指的是在训练机器学习模型时,返回数组中所有唯一值,并默认排序。手写笔记复习(“随机过采样”部分)自动为少数类分配更高权重。补充:关于“加权模型”补充:关于“加权模型”
2025-06-15 10:08:30
347
原创 Python Day51 学习(日志Day20复习)
适应度函数就像“打分标准”,用来评价每一个候选解的优劣。分数越高,说明这个解越优秀,越接近我们想要的目标。今日复习到这里,这一部分主要关注其输入输出,会调用即可。适应度函数就是用来“打分”,帮助算法找到最优解的标准。”的函数,常见于遗传算法、进化算法、贝叶斯优化等智能优化方法中。适应度函数(Fitness Function)是用来。衡量一个解(或模型)“好坏。准确率(accuracy)补充:关于“适应度函数”补充:关于“适应度函数”
2025-06-14 17:34:48
561
原创 Python Day50 学习(仍为日志Day19的内容复习)
确定目标 → 选超参数 → 定范围 → 选方法 → 划分数据 → 运行调参 → 选最优 → 测试集评估这样可以保证模型既不过拟合,也能达到最优效果。手写笔记复习(贝叶斯优化)今日复习到这里,明日继续加油!!!
2025-06-13 20:37:56
535
原创 Python Day49 学习(日志Day19复习)
补充:调整超参数的原因补充:调整超参数的原因补充:关于“验证集”验证集(Validation Set)是机器学习中非常重要的一个概念。
2025-06-12 20:54:55
442
原创 Python Day 48 学习(日志Day18学习)
这些算法本质上都是“根据已知信息,帮你做分类或预测”,只是“做决策的方法”不同。有的靠投票,有的靠一步步筛选,有的靠概率,有的靠不断纠错。你可以把它们想象成不同风格的“决策顾问”,帮你解决问题。手写笔记复习今天复习到这里,明日继续,加油!!!
2025-06-11 18:04:55
419
原创 Python Day47 学习(日志Day16-17复习)
今日复习到这里,明日继续剩余几种算法的复习。第二遍复习时发现第一遍的学习不够细致,导致一些知识有遗漏,从而造成“不理解”的局面,这几日结合手写的方式复习后,对“如何处理一份数据”和“代码为什么这样写”有了更清晰的认识。接下来继续复习下面内容的同时,前面已学习过的代码还得经常手下练习着,总归是熟练功。勘误:Day17中应为“划分数据集”,而非“划分数据值”
2025-06-10 17:04:45
183
原创 Python Day45 学习(日志Day13-14复习)
今日复习到这里,明日复习"子图的绘制”,并用“心脏病数据集”对数据预处理部分进行学习情况检测,继续查漏补缺。比训练营的正常学习进度落后了很多,但没办法,学得卡住了。既然卡住了就说明前面的内容自己还是没有彻底掌握,那就重头再来,待前面彻底掌握再进行更深入内容的学习。一切以“掌握”为主,继续加油吧!补充:关于“热力图”的阅读。补充:关于“数据预处理”补充:关于“数据预处理”为什么要进行数据预处理?
2025-06-08 11:01:11
451
原创 Python Day44 学习(日志Day12复习)
注:这里AI给出的“适用场景”存在问题。关于性别,为二分类问题,不需要使用独热编码。三分类以上才涉及独热编码。出现问题:忘记之前已对数据进行了独热编码,导致映射出来的值为空值。对信贷数据重新进行标签编码(回写昨日复习的代码)对信贷数据重新进行标签编码(回写昨日复习的代码)补充:对数据进行“归一化”和“标准化”的作用。补充:“独热编码”与“标签编码”的选择。
2025-06-07 11:59:33
496
原创 Python Day43 学习(日志Day10-11复习)
今日复习到这里,明日继续,加油!补充:花括号在代码中的使用。补充:花括号在代码中的使用。
2025-06-06 17:37:48
293
原创 Python Day42 学习(日志Day9复习)
箱体越高,数据越分散;箱体越矮,数据越集中。箱体高度可以帮助你判断该类别下数据的离散程度。补充:关于“小提琴图”的阅读。
2025-06-05 17:00:37
802
原创 Python Day41学习(日志Day8复习)
重写代码时出现的问题:.tolist()是一个方法对象,调用时须加()。刚开始书写时漏掉了(),导致报错。
2025-06-03 22:30:43
273
原创 Python Day40 学习(复习学习日志Day5-7)
自己写的时候,还是出现了问题:首先是忘记了要定义一下data, 通过data =pd.read_csv('data.csv')可以将读取到的数据保存到变量data中,方便后续进行数据分析。其次,是漏掉了这行代码的作用是:把DataFrame的所有列名提取出来,转换成一个列表,赋值给变量c。得到的是一个包含所有列名的Index对象。.tolist()方法把这个Index对象转换成普通的Python列表。这样,c。这样做的好处是,后面可以用来遍历每一列,方便批量处理每一列的数据。
2025-06-02 16:29:18
379
原创 Python Day39 学习(复习日志Day4)
今日复习了日志Day4的内容,感觉还是得在纸上写一写印象更深刻,接下来几日都采取“纸质化复习过往日志”和“电脑上重敲代码自检”结合的方式复习,明日继续,加油!补充:如何判断是用“众数”还是“中位数”填补空缺值?补充: 关于“类”和“类的实例”的通俗易懂的例子。复习Day4日志内容。复习Day4日志内容。
2025-06-01 22:01:18
391
原创 Python Day33 学习
这类算法在降维过程中不使用任何关于数据样本的标签信息(比如类别标签、目标值等)。它们仅仅根据数据点本身的分布、方差、相关性、局部结构等特性来寻找低维表示。
2025-05-26 17:23:52
643
原创 Python Day29 学习
特征总结:在债务合并用途上表现一致,几乎无破产记录,信用问题极少,资金用途集中且很少涉及特殊类别。财务状况稳定,信用良好,资金流向明确。定义依据:各项关键财务和信用指标表现优异,显示出良好的财务自律性和信用履约能力,所以定义为 “优质信用稳健财务型”。
2025-05-22 12:49:26
662
原创 Python Day28 学习
DBSCAN聚类Q1. 该算法的原理是什么?总体而言,DBSCAN聚类是一种基于密度的聚类算法,适合发现任意形状的簇和检测噪声点Q2. 代码实现打印结果代码继续(绘制评估指标图)代码继续(进行聚类)从聚类的结果来看,这次聚类失败,因为没有少数簇的数目太少。对此,提出问题:Q3. 如何判断DBSCAN聚类是否成功?(除了聚类评估指标外)
2025-05-21 17:29:06
525
原创 Python Day25 学习
数组的随机化创建指的是利用NumPy等工具生成包含有随机数的数组。这些数组的元素并非是手动指定的,而是由随机数生成器自动生成的。NumPy数组支持“向量化”操作,可以直接对整个数组加1,优势明显。今日学习到这里,得补充线性代数的知识了(苦笑)。明日继续“数组索引”的学习,进度是快不了一点,还是慢慢来吧,加油,加油!注:rand()与random()都是均匀分布,但rand()能直接生成数组。注:这部分代码的作用是把一个数组中的每个元素都加1,然后计算所有元素的总和。代码示例:计算两个数组的和、差、除法。
2025-05-14 22:33:07
503
原创 Python Day 24 学习
NumPy数组可以是一维、二维或更高维的数组。一维数组类似Python列表,二维数组类似矩阵,三维及以上数组可以表示更复杂的数据结构。如概念所示,NumPy数组中的所有元素必须是相同的数据类型。注意这里须与Python中的列表进行区分(列表可以包含不同类型的元素)。它是用于数值计算的核心数据结构,能够高效地存储和操作大量的。NumPy数组在内存中是连续存储的,计算效率比Python列表高。今日学习到这里,明天继续NumPy数组的学习。NumPy数组是Python中由NumPy库提供的一种。
2025-05-13 22:25:21
654
原创 Python Day23 学习
特征重要性蜂巢图是 SHAP 的全局解释工具,通过展示每个特征的 SHAP 值分布,帮助我们理解特征对模型预测的影响大小、方向和分布情况。特征重要性条形图(Feature Importance Bar Plot)是 SHAP 提供的一种全局解释工具,用于展示模型中各个特征对预测结果的重要性。:表示特征的重要性,通常是特征的 SHAP 值的平均绝对值(`mean(|SHAP value|)`)。- SHAP 值的绝对值越大,说明该特征对模型预测的影响越大。SHAP 值,表示特征对模型预测的影响大小和方向。
2025-05-12 21:45:04
2408
原创 Python Day 22 学习
机器学习模型仿若一个黑盒子,我们只能看到输入和输出,但至于“输入到输出之间发生了什么”我们是不知道的。这里让我联想到语言学家乔姆斯基在语言习得中提到的Black Box,可以与之关联理解。SHAP模型就可以让我们清楚地看到从输入到输出之间到底发生了什么(已知条件对最终预测结果起到了哪些影响,是正向还是负向)。
2025-05-11 22:35:19
2124
原创 Python Day20 学习
2. 现在根据该理解来学习一下其实现代码。启发式算法是优化器,所以我们还是。现在开始“粒子群优化”的实现。先运行之前预处理的代码。
2025-05-09 22:02:08
321
原创 Python Day 19 学习
超参数调整专题1知识点回顾网格搜索随机搜索(简单介绍,非重点 实战中很少用到,可以不了解)贝叶斯优化(2种实现逻辑,以及如何避开必须用交叉验证的问题)time库的计时模块,方便后人查看代码运行时长Q. 什么是“超参数”?模型 = 算法实例化+内参(训练)+外参(人为设置)这里的外参也叫做“超参数”,它是可以人为进行修改的。外参在实例化类的时候,可以使抽象的类变得具体。比如“类”为“人”(参数:眼睛颜色,发型......),我们可以通过设置参数(其眼睛颜色,发型等)使之变得具体。
2025-05-08 21:44:08
1025
原创 Python Day 17 学习
混淆矩阵(Confusion Matrix)是用于评估分类模型性能的工具,它以矩阵形式展示了模型的预测结果与真实值之间的对比情况。混淆矩阵特别适用于二分类或多分类问题。今日学习到这里,这一部分内容较多,慢慢来学。明日接着剩余几种算法的理解与学习。继续加油!!!
2025-05-06 17:59:26
511
原创 Python Day16 学习
比如:示例代码中,若Home Ownership与Annual Income相关,那么我们就可以根据不同房屋所有权类型的平均收入来填充Annual Income中缺失的值。【3】对于一些缺失值较多的特征,若该特征对目标变量影响较大,可以采用“多重填补法”等方式进行填充;若影响较小,可以尝试直接删除含有缺失值的行,【2】对于一些对象类型的特征,若其存在缺失值,我们需要先将其转化为数值类型。如果特征的类别较少,且没有明显的顺序关系,可以采用独热编码。(2)读取数据,查看数据信息,理解数据。
2025-05-05 21:56:22
429
原创 Python Day15 学习
总1. 定义要绘制的特征2. 设置图片清晰度3. 创建一个包含2行2列的子图布局4. 子图绘制:(方式一)手动指定特征索引进行绘图(方式二)使用for循环遍历特征(方式三)使用enumerate()函数5. 调整子图之间的间距+显示图形根据示例代码详细学习1.定义要绘制的特征。
2025-05-04 20:34:40
638
原创 Python Day14 学习
讲义Day9内容学习讲义Day9内容学习DAY 9知识点:热力图和子图的绘制介绍了热力图的绘制方法介绍了enumerate()函数介绍了子图的绘制方法作业:尝试对着心脏病数据集绘制热力图和单特征分布的大图(包含几个子图)
2025-05-03 17:47:19
453
原创 Python Day 13 学习
今日处理心脏病数据集时发现前面的一些内容还是经常忘,糊里糊涂的。可见,前面的内容必须及时复习,不然学到后面只会越来越糊涂。(2)需注意这里data[numeric_cols]是通过列名列表numeric_cols从DataFrame中选取的多列数据,符合fit_transform要求输入的数据是二维数组的要求,因而不用加双括号。注:这里在第一次书写打印时,trestbps的值被覆盖为标准化后的值了,在这种情况下,只须在进行独热编码前重新读取原始数据即可。1. 首先进行数据的读取和查看。
2025-05-02 22:09:48
302
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
4