- 博客(39)
- 收藏
- 关注
原创 【Python学习打卡-Day39】深度学习炼丹师的必修课:图像数据与GPU显存管理
本文介绍了计算机视觉中图像数据的表示方式和GPU显存管理策略。主要内容包括:1) 图像数据的3D结构,区分灰度图(1通道)和彩色图(3通道)在PyTorch中的Channel First格式;2) GPU显存分配的四大组成部分:模型参数、优化器状态、批量数据和中间激活值;3) batch_size选择的权衡技巧,建议从32/64开始逐步增加;4) 通过MNIST和CIFAR-10的MLP模型实例演示了参数计算和显存分析。文章强调理解数据张量形状和合理分配计算资源的重要性,帮助开发者从理论转向工程实践。
2026-01-09 23:15:45
442
原创 【Python学习打卡-Day38】PyTorch数据处理的黄金搭档:Dataset与DataLoader
本文介绍了PyTorch中处理大规模数据集的黄金搭档——Dataset和DataLoader。通过餐厅备菜与上菜的生动比喻,阐明了二者的分工:Dataset负责单个数据的加载与预处理,DataLoader则专注于批量组合与高效传输。以MNIST手写数字识别为例,文章详细展示了从数据加载、模型构建到训练评估的完整流程,包括定义数据预处理流水线、创建多层感知机模型、训练循环实现以及测试集评估。通过可视化预测结果,直观验证了模型性能。这套方法为解决内存不足问题提供了专业解决方案,是构建高效深度学习数据流水线的核心
2026-01-07 23:59:28
825
原创 【Python学习打卡-Day37】炼丹师的必修课:掌握PyTorch早停策略与模型保存
本文介绍了深度学习模型训练中的关键技巧,包括过拟合诊断、模型保存与加载以及早停策略。主要内容如下: 过拟合诊断:通过监控训练集和测试集损失曲线,当测试集损失开始上升而训练集损失持续下降时,表明模型出现过度拟合。 模型保存与加载: 推荐使用state_dict()保存模型权重,便于部署和迁移 提供多种保存方案对比,包括完整模型保存、检查点保存和ONNX格式导出 早停策略:通过设置耐心值(patience),在测试损失连续不改善时自动停止训练,避免过拟合并节省计算资源。 信贷模型实战:演示了完整流程,包括: 初
2026-01-07 00:02:27
859
原创 【Python学习打卡-Day36】实战重构:用PyTorch神经网络升级信贷预测项目
本文介绍了如何使用PyTorch重构信贷预测项目,实现从数据预处理到模型评估的全流程。主要内容包括:1)数据加载与预处理,将数据转换为PyTorch张量;2)构建多层感知机模型(MLP),使用nn.Module基类定义网络结构;3)完整的训练流程,包含损失函数、优化器和训练循环;4)模型评估阶段,计算准确率和分类报告。通过规范化的代码结构,实现了PyTorch在信贷预测任务中的应用,展示了深度学习项目从"手工作坊"到"现代化工厂"的升级过程。
2026-01-06 23:52:42
672
原创 【Python学习打卡-Day35】从黑盒到“玻璃盒”:掌握PyTorch模型可视化、进度条与推理
本文介绍了神经网络模型可视化和诊断的三大核心技能:模型可视化、训练进度监控和模型推理评估。通过三种可视化方法(print、torchsummary、torchinfo)逐层深入分析模型结构;使用tqdm进度条优化训练过程显示;并详细说明了模型推理的标准流程(eval模式和no_grad上下文)。最后通过调整隐藏层神经元数量(5/10/50)的实验对比模型复杂度对性能的影响,提供了完整的代码实现框架,包括数据准备、模型定义、训练评估函数等模块化设计。这些方法能有效帮助开发者理解模型内部状态,优化训练过程并评估
2026-01-04 23:55:06
824
原创 【Python学习打卡-Day34】GPU为何“变慢”?从性能悖论到`__call__`的魔力
摘要 本文探讨了GPU在小规模任务(如鸢尾花分类)中性能反超CPU的三大原因:1)数据传输开销(PCIe总线延迟);2)核心启动耗时;3)并行资源利用率不足。通过实验发现,减少同步操作(如loss.item())能显著提升GPU效率,但非线性优化。同时揭示了PyTorch中__call__方法的设计精髓——通过魔术方法实现类实例的函数式调用(如model(x)),既保持代码优雅又支持灵活扩展。文末通过CPU/GPU对比实验验证理论,证明GPU更适合大规模"三高"(大模型、大数据、大批次)
2026-01-01 23:56:53
1016
原创 【Python学习打卡-Day33】你好,PyTorch!从“自动挡”到“手动挡”的深度学习之旅
本文介绍了从Scikit-learn转向PyTorch进行深度学习的过程。主要内容包括:1)环境准备,强调创建独立Conda环境和GPU加速的重要性;2)PyTorch核心概念:张量(Tensor)作为数据载体,模型构建(nn.Module)和五步训练循环(前向传播、损失计算、梯度清零、反向传播、参数更新);3)实战演示:使用PyTorch构建鸢尾花分类神经网络,包含数据预处理、模型定义、训练过程及结果可视化。文章通过"自动挡汽车"到"手动挡赛车"的比喻,形象说明了P
2025-12-31 18:46:19
918
原创 【Python学习打卡-Day31】项目架构师之路:告别杂乱脚本,拥抱工程化思维
本文介绍了如何将机器学习项目进行工程化拆分和组织,提升代码的清晰性、可维护性和复用性。核心内容包括:1)项目结构标准化,采用模块化设计(数据、源码、实验区分离);2)Python工程实践三板斧(if __name__ == "__main__"、编码声明、类型注解);3)通过心脏病预测项目实战演示重构过程,将预处理、模型训练等功能拆分为独立模块,由main.py统一调度。文章强调从"编码者"到"架构师"的思维转变,提倡单一职责原则和模块化设计,这是
2025-12-30 23:47:22
787
原创 【Python学习打卡-Day30】模块化编程:从“单兵作战”到“军团指挥”
今天是 Python 训练营的第 30 天,一个具有里程碑意义的日子!如果说前 29 天我们是在磨练单兵作战的技能(变量、逻辑、函数、类),那么今天我们开始学习如何指挥军团——模块化编程。所谓“学习 Python”,其实是一个伪命题。掌握 Python 基础语法 + 熟练调用解决特定问题的第三方库。今天,我们不仅要学习如何优雅地调用别人的库,更要学习如何像架构师一样组织自己的代码文件。Python 之所以强大,是因为它背后庞大的生态。领域代表库作用基础交互ossysjson文件操作、系统交互数据分析。
2025-12-28 00:04:39
798
原创 【Python学习打卡-Day29】复盘日:类的终极封装术与我的29天思维进化史
各位坚持打卡的伙伴们,大家好!今天是我们学习之旅的第 29 天,一个非常值得纪念的复盘日。训练营的进度已近一半,我们即将完成 Python 基础与数据分析的“上篇”,准备开启深度学习的“下篇”。今天,我们将学习一个高级技巧——类装饰器,它是对“封装”思想的终极诠释。但更重要的是,我们将借此机会,停下来,回顾我们走过的路,写下这 29 天的学习心得。这不仅是对知识的梳理,更是对我们编程思维成长的一次深刻反思。29 天,弹指一挥间。从对 Python 的懵懂,到如今能欣赏其设计之美,每一步都离不开实践和思考。
2025-12-25 01:00:51
570
原创 【Python学习打卡-Day28】类的蓝图:从模板到对象的构建艺术
本文介绍了Python面向对象编程(OOP)的核心概念——类(Class)及其应用。主要内容包括:1)类的定义与初始化方法__init__,用于设置对象属性;2)普通方法的创建,实现类的行为功能;3)类的继承机制,通过子类扩展和重写父类功能。文章通过"狗类"和"警犬子类"的生动示例,展示了如何定义属性、添加方法、使用继承等核心OOP技术。最后通过构建几何图形库的实战练习,包括圆形类和长方形类的实现,帮助读者巩固所学知识。全文以通俗易懂的方式,引导读者从"编写
2025-12-23 23:09:39
551
原创 【Python学习打卡-Day27】函数的“魔法外衣”:一文彻底搞懂Python装饰器
文章摘要: 本文通过三明治制作的类比,生动解释了Python装饰器的工作原理。作者将装饰器比作"流水线",能够在不修改核心函数的情况下,为其添加前后处理逻辑。文章分三个阶段展开:1)基础装饰器处理无参数函数;2)升级版支持任意参数和返回值;3)实际应用完成日志装饰器作业。核心要点包括:装饰器通过包装函数实现功能扩展,使用*args和**kwargs处理各种参数,以及如何保持原始函数的返回值。最后提供了详细的logger装饰器实现代码,展示了装饰器在实际开发中的应用价值。全文通过生活化的比
2025-12-22 22:13:58
837
原创 【Python学习打卡-Day26】函数的艺术(上):从基础定义到参数魔法
摘要:本文介绍了Python函数的基础知识和参数使用技巧。主要内容包括:1)函数的定义与变量作用域(局部/全局变量);2)参数类型详解(位置参数、默认参数、可变参数*args和**kwargs);3)参数组合顺序规则。通过计算圆面积、矩形面积、平均值和打印用户信息等实战案例,演示了如何创建灵活的函数。文章强调函数设计应注重代码复用性和健壮性,为后续复杂程序开发奠定基础。
2025-12-21 20:57:29
985
原创 【Python学习打卡-Day25】从程序崩溃到优雅处理:掌握Python的异常处理艺术
本文介绍了Python异常处理的重要性及使用方法。文章指出,异常处理是编写健壮代码的关键,正如AI生成代码时大量使用try-except结构来应对未知情况。作者列举了常见Python异常类型(如SyntaxError、NameError等),并详细讲解了try-except-else-finally结构:try块放置风险代码,except捕获异常,else处理成功情况,finally确保资源释放。最后通过改进"目录树浏览器"案例,展示了如何用异常处理增强代码健壮性,使其能优雅处理文件不存
2025-12-20 22:57:59
705
原创 【Python学习打卡-Day24】从不可变元组到漫游文件系统:掌握数据结构与OS模块
本文探讨了Python中元组(Tuple)和os模块的核心概念及应用。通过对比Python四大数据结构的特点,重点分析了元组"不可变性"在深度学习中的价值,如定义张量形状、固定超参数等。同时详细介绍了os模块的关键功能,包括路径操作(os.path.join)和目录遍历(os.walk),并通过实现一个目录树浏览器展示了这些功能的实际应用。文章强调元组和os模块分别代表了程序内部的稳定性和与外部系统的交互能力,是Python编程中不可或缺的基础工具。
2025-12-19 23:35:38
538
原创 【Python学习打卡-Day23】从重复到重用:用Pipeline和ColumnTransformer重构你的机器学习工作流
文章摘要 本文介绍了如何使用Scikit-learn的Pipeline工具优化机器学习工作流。Pipeline通过将数据预处理和模型训练封装成流水线,带来三大优势:代码简洁、防止数据泄露和简化超参数搜索。文章对比了传统手工预处理与Pipeline自动化处理的区别,详细讲解了转换器(Transformer)和估计器(Estimator)的核心概念,并以信贷违约数据集为例,展示了如何用ColumnTransformer对不同类型特征进行针对性处理,最终构建完整的Pipeline流程。这种工程化方法显著提升了代码
2025-12-18 23:11:02
698
1
原创 【Python学习打卡-Day22】启航Kaggle:从路径管理到独立项目研究的全方位指南
本文介绍了如何通过Kaggle平台开展首个独立数据科学项目,重点讲解了文件路径管理和电信客户流失预测的全流程实践。主要内容包括:1)Kaggle平台的核心功能(数据集、竞赛、云端笔记本);2)使用os.path模块正确处理文件路径的方法;3)以电信客户流失数据集为例,展示了从数据加载、预处理、建模到评估的完整代码实现,特别强调了逻辑回归模型的可解释性分析。文章旨在帮助读者完成从学习者到实践者的转变,掌握独立开展数据科学项目的能力。
2025-12-17 23:16:45
998
原创 【Python学习打卡-Day21】超越SHAP:模型解释性的“事前”智慧与“事后”洞察
各位伙伴们,大家好!在 Day 20,我们用 SHAP 这把“瑞士军刀”成功地打开了机器学习的“黑箱”,看到了每个特征是如何影响模型决策的。然而,SHAP 只是庞大的可解释性人工智能 (XAI)世界中的一员。今天,Day 21,我们将站得更高,看得更远,系统地梳理模型解释性的不同流派。是不是所有模型都需要“事后”才能解释?有没有天生就是“白箱”的模型?模型告诉我们“A和B相关”,我们能说“A导致B”吗?让我们一起探索模型解释性的“事前”智慧、“事后”洞察,并初探“因果分析”这片更深的蓝海。
2025-12-16 23:17:51
1021
原创 【Python学习打卡-Day20】打开机器学习黑箱:从“数据形状”到SHAP值的深度解析
本文探讨了机器学习模型可解释性的重要性,并重点介绍了SHAP(SHapley Additive exPlanations)方法。文章从数据形状(shape)的理解入手,强调正确掌握数组嵌套结构对处理复杂数据输入的关键作用。通过“奶茶店分钱”的比喻,生动解释了SHAP值的核心思想——基于博弈论的夏普利值,计算每个特征对模型预测的边际贡献。最后,文章以加州房价数据集为例,展示了如何用SHAP解释梯度提升回归模型,包括全局特征重要性分析、特征影响分布可视化以及单个样本的局部解释。通过理解SHAP值,开发者可以更好
2025-12-15 23:58:20
891
1
原创 【Python学习打卡-Day19】告别选择困难症:熵权法+TOPSIS科学评估你的机器学习模型
各位伙伴们,大家好!经过近三周的“打怪升级”,我们已经手握逻辑回归、决策树、随机森林等多种强大的机器学习模型。但在实战中,一个幸福的烦恼随之而来:面对一堆评估指标(Accuracy, Recall, F1, AUC…),到底该选哪个模型?模型A的Recall最高,但训练时间最长。模型B的AUC领先,但F1-Score稍逊。模型C各方面都还行,但都不顶尖。这不就是典型的“选择困难症”吗?今天,Day 20,我们将学习一套科学、客观的“裁判系统”——
2025-12-12 23:04:05
675
原创 机器学习打卡DAY18 | 回归问题全解析:模型对比、置信区间与Bootstrap实战
本文探讨了回归问题的核心内容,重点对比了回归器与分类器的本质区别,介绍了回归任务的关键评估指标(MAE、MSE、RMSE、R²),并阐述了多输出回归任务和置信区间的实现方法。通过混凝土抗压强度数据集(1030条样本,8个特征)的实战案例,展示了线性回归、决策树、随机森林和梯度提升四种模型的训练与评估过程,提供了完整的代码实现和数据可视化方案。文章强调置信区间通过Bootstrap方法估计预测范围,而非单一预测值,为工程实践提供了实用指导。
2025-12-08 22:57:43
786
1
原创 【Python学习打卡-Day17】从二分类到多分类:ROC曲线、三大平均指标与风控利器MCC/KS
本文介绍了多分类问题的评估方法与应用策略。首先通过鸢尾花数据集展示了如何将二分类评估扩展至多分类场景,重点讲解了One-vs-Rest策略及其实现。详细解析了Micro、Macro和Weighted三种平均指标的特点与适用场景,并介绍了金融风控领域常用的MCC和KS指标。文章特别强调了一个创新思路:为每个类别寻找专属的最佳决策阈值,这种方法能显著提升分类效果。最后总结了多分类评估中的关键思维,包括维度转换、多角度评估以及灵活决策等实用技巧,为机器学习实践提供了有价值的参考。
2025-12-01 18:42:24
625
原创 【Python学习打卡-Day16】超越准确率:ROC与PR曲线的终极指南(动画级图解)
摘要 本文深入讲解了分类模型评估中的ROC曲线和PR曲线。通过"两座山与一把刀"的生动比喻,形象解释了这两种曲线的生成原理:ROC曲线反映模型区分正负样本的能力,PR曲线则更适用于不平衡数据集评估。文中展示了基准模型的评估结果(ROC AUC=0.7492,AP=0.6246),并详细分析了混淆矩阵中TP、FN、FP、TN的含义及其衍生指标。两种曲线各具优势:ROC曲线对样本不均衡不敏感,PR曲线则能更精确反映模型在少数类上的表现。文章还提供了完整的Python代码实现,帮助读者直观理解
2025-11-30 23:32:11
746
原创 【Python学习打卡-Day15】拯救少数派:一文掌握不平衡数据集处理三大策略
📋 摘要 本文针对机器学习中的数据不平衡问题展开实战分析,以信贷违约数据集为例,展示了高准确率模型的"虚假繁荣"现象(准确率77%但违约用户召回率仅30%)。通过三类策略系统提升模型效果: 数据层面:对比过采样(SMOTE)、欠采样(RUS)和混合采样(SMOTEENN),发现欠采样将召回率提升至63%,但整体准确率下降至66%; 算法层面:采用代价敏感学习(class_weight='balanced'),效果未达预期; 评估层面:调整分类阈值至0.25,使召回率飙升至76%,F1-
2025-11-29 22:54:22
810
原创 【Python学习打卡-Day14】当鱼与熊掌不可兼得:多目标优化与帕累托前沿实战
摘要 本文介绍了多目标优化(MOO)的核心概念和实战应用。MOO旨在解决现实世界中多个冲突目标(如精确率与召回率)的权衡问题。关键概念包括:支配关系(比较方案优劣)、帕累托最优解(无法被支配的解决方案)和帕累托前沿(所有最优解的集合)。文章以优化随机森林模型为例,使用DEAP库和NSGA-II算法,演示了如何寻找精确率和召回率的最佳权衡解。通过定义适应度函数、个体表示和遗传算子,构建了一个完整的优化框架,为决策者提供了一组高质量的候选方案。
2025-11-25 23:50:09
891
原创 【Python学习打卡-Day13】从优雅语法糖到自然启示:遗传、粒子群与退火算法初探
本文介绍了Python编程中的列表推导式技巧和三种启发式优化算法。首先讲解了列表推导式的基础用法、条件过滤、嵌套循环和函数调用等简洁写法。然后概述了遗传算法(GA)、粒子群优化(PSO)和模拟退火(SA)三种启发式算法的核心思想:GA模拟生物进化过程,PSO借鉴鸟群觅食行为,SA受金属退火工艺启发。文章强调在AI时代应注重算法思想而非具体实现,并展示了这些算法在优化随机森林模型超参数时的应用效果。
2025-11-24 23:25:23
734
原创 【Python学习打卡-Day12】眼见为实!让贝叶斯优化的“寻宝”过程动起来!
摘要:本文介绍了贝叶斯优化可视化方法和两个Python基础知识。首先讲解了元组(Tuple)的不可变特性及其应用场景,以及字典的.items()方法用于高效键值对迭代。随后详细展示了如何通过可视化呈现贝叶斯优化过程:设置大参数空间,记录优化轨迹,并绘制收敛曲线图与探索/利用对比图。通过图形化展示,使抽象的优化过程变得直观可见,帮助理解贝叶斯优化如何"智能"寻找最优参数。文章包含完整代码示例,适合机器学习实践者学习模型优化技巧。
2025-11-22 23:23:53
548
原创 【Python学习打卡-Day11】炼丹大师的秘密武器:三种主流模型调参方法详解!
摘要 本文系统介绍了机器学习模型调参的三种主流方法:网格搜索、随机搜索和贝叶斯优化。以随机森林分类器为例,首先建立基线模型作为性能基准,随后详细演示了每种调参方法的实现过程。网格搜索通过穷举参数组合保证最优解,但计算成本高;随机搜索采用随机采样提高效率;贝叶斯优化则利用代理模型智能预测最优参数。实验结果显示,不同调参方法对模型性能提升效果各异,其中网格搜索和贝叶斯优化表现较优。文章还强调了交叉验证在调参中的重要性,并提供了完整的数据预处理和评估代码,为机器学习实践者提供了实用的调参指南。
2025-11-17 23:58:18
918
原创 【Python学习打卡-Day10】从数据到模型:我的第一个完整机器学习项目!
各位小伙伴,今天的心情无比激动!我们终于迎来了第10天的学习,这也是整个学习计划的第一个高潮——完成一个端到端的机器学习项目。从拿到原始数据开始,我们亲手将它一步步清洗、转换、预处理,最终送入多个机器学习模型中,并对结果进行了专业的评估。这不仅仅是代码的堆砌,更是一次思维的升华。我们学习了如何像真正的算法工程师一样,思考异常值处理、警惕数据泄露,并深刻理解了分类报告中精确率(Precision)与 **召回率(Recall)**背后的业务含义。
2025-11-16 23:58:30
848
原创 【Python学习打卡-Day9】可视化进阶:玩转热力图(Heatmap)与子图(Subplot)布局
本文介绍了Python数据可视化的进阶技巧,重点讲解了热力图和子图布局的应用。热力图通过颜色深浅展示数据关系,子图则实现多图表协同分析。文章以心脏病数据集为例,演示了如何构建一个完整的数据可视化仪表盘,包括连续变量分布图、离散变量分布图以及特征与标签关系的分析图。代码示例展示了使用seaborn和matplotlib批量绘制子图的技巧,并强调了矢量图在科研发表中的优势。通过这套可视化工具,研究者可以高效地进行多维度数据探索与分析。
2025-11-14 23:54:26
679
原创 【Python学习打卡-Day8】终极预处理:标签编码、连续变量归一化与综合实战
各位小伙伴,Day 8 是一个里程碑式的日子!标签编码 (Label Encoding)和连续变量处理(归一化/标准化)。至此,我们已经集齐了应对各种数据类型(缺失值、文本、有序分类、无序分类、连续数值)的“龙珠”,可以召唤出一条完整的、专业的数据预处理流水线了!回顾 Python 中灵活的“瑞士军刀”——字典 (Dictionary)的用法。深入理解标签编码与独热编码的爱恨情仇,以及何时该用谁。归一化与标准化。
2025-11-12 23:29:20
1018
原创 【Python学习打卡-Day7】复盘与赋能:从“学函数”到“玩转函数”
各位朋友,学习之旅来到了第一个“休整与加油站”——Day 7 复习日!如果说前六天我们是在不断地往“技能背包”里装东西,那今天就是一次停下来,整理背包、擦亮工具,并演练如何使用它们的绝佳时机。增强我们的“自主学习”能力。授人以渔:系统学习如何查看和理解任何一个陌生的 Python 函数。这比单纯记住某个函数怎么用重要得多,它决定了我们能走多远。温故知新:将前六天学到的所有数据预处理知识,应用到一个全新的真实数据集上,完成一次从头到尾的实战演练。
2025-11-11 21:45:17
734
原创 【Python学习打卡-Day6】让数据开口说话:Matplotlib与Seaborn可视化初探
各位小伙伴,Day 6 的学习让我兴奋不已!我们终于从幕后的数据“清洗工”,转型到了台前的“数据翻译官”。今天,我们学习了如何使用 Python 中最强大的两个可视化库——matplotlib和seaborn——让冰冷的数据以图形的方式,生动地向我们讲述它背后的故事。通过图形直观地发现数据中的模式、趋势、异常值和关系。很多时候,一张图表所能揭示的信息,远比几页密密麻麻的数字表格要多得多。今天,我将带大家回顾可视化的基本流程,并完成一份有趣的“看图说话”作业,尝试从图表中挖掘出有价值的业务洞察。
2025-11-10 22:32:07
855
原创 【Python学习打卡-Day5】数据预处理进阶:征服离散特征与独热编码
本文介绍了处理离散文本特征的关键技术——独热编码(One-Hot Encoding),并探讨了数据预处理中的核心问题:缺失值填充与独热编码的先后顺序。主要内容包括: 离散特征的概念与独热编码原理 必须"先填充缺失值,后独热编码"的逻辑原因 提供完整的Python实现方案,包含: 数值/文本型缺失值的不同填充策略 独热编码具体实现 类型转换处理 预处理流程强调:缺失值填充需区分数值型和文本型特征,分别采用均值和众数填充;独热编码要在缺失值处理完毕后进行;最终需要将生成的布尔型变量转换为整型
2025-11-09 23:49:50
589
原创 【Python学习打卡-阶段性复盘】温故知新:串联前三天知识,并补充Day4实战代码
本文分享了一次阶段性学习复盘经历,主要内容包括:1)补充完善了之前学习的pandas缺失值处理代码,展示了带有详细注释的完整实战案例;2)系统回顾了前三天的Python基础知识(变量、字符串、列表、循环、判断等),阐明了它们如何协同工作;3)设计了一道综合性练习题"班级成绩处理器",通过实际编程检验学习成果。作者通过这次复盘,将孤立的知识点串联成解决问题的思维模型,加深了对Python基础框架的理解,为后续学习打下坚实基础。文章展现了从理论学习到实践应用的完整闭环学习过程。
2025-11-08 23:30:12
621
原创 【Python学习打卡-Day4】初探Pandas:我的第一步数据清洗之旅
本文介绍了Python数据分析库Pandas的基础知识和实战应用。主要内容包括:1) Pandas核心数据结构DataFrame和Series的概念;2) 数据对象的属性与方法区分;3) 数据清洗标准流程,特别是缺失值处理技术。通过信贷数据集实例,演示了如何读取数据、检测缺失值,并用中位数、众数或均值进行填充。文章强调探索性分析的重要性,并展示了从手动处理单列到循环批量处理数值列的进阶技巧。最后总结了Pandas在数据科学中的核心地位,以及属性与方法的关键区别。全文以实战为导向,帮助读者快速掌握基础数据分析
2025-11-07 22:50:34
953
原创 【Python学习打卡-Day3】列表、循环与判断:让程序“活”起来!
本文是Python学习第三天的总结,重点介绍了三大核心概念:列表、for循环和if判断。列表作为数据的"收纳箱",可存储多种类型数据;for循环配合range()函数实现批量操作;if语句赋予程序逻辑决策能力。文章还介绍了强大的调试工具Debugger的使用方法,并通过学生成绩处理器的实战案例展示了这些知识点的综合应用。作者总结了学习体会,强调组合使用这些基础概念能实现复杂功能,并体会到代码从静态到动态的转变,以及Debugger对提高编程效率的重要性。
2025-11-06 23:01:00
723
原创 【Python学习打卡-Day2】玩转字符串与逻辑判断的艺术
大家好,Python 学习打卡第二天!昨天我们熟悉了变量和 f-string,感觉像是给编程世界打开了一扇门。今天,我们将深入探索 Python 中最常用的数据类型之一——字符串 (String),并学习如何让程序做出判断——比较运算。今天的知识点非常实用,无论是以后做数据分析、网站开发还是自动化脚本,都离不开对字符串的处理和逻辑判断。让我们一起攻克它吧!在开始做题之前,我先把今天学习到的核心知识点进行一个梳理总结。Day 2 的内容比第一天要丰富得多,也更有趣。数据类型很重要。
2025-11-05 22:44:21
1025
原创 【Python学习打卡-Day1】变量、格式化字符串与基础运算
Day 1 的旅程结束!变量是存储数据的基本单元。print()是我们与程序交互的重要窗口。转义字符\n是控制输出格式的好帮手。f-string是目前最推荐的字符串格式化方式,强大且易用。Python 内置了丰富的算术运算符,可以轻松处理数值计算。虽然简单,但都是未来构建复杂程序的基石。继续坚持,明天见!一起加油!@浙大疏锦行提供的学习题目和路线!@浙大疏锦行。
2025-11-04 23:23:34
958
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅