wind
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
25、自定义函数和类实现数据清洗自动化
本文详细介绍了如何通过自定义函数和类实现数据清洗自动化,包括检查变量分布和异常值、数据聚合与合并,以及使用类处理具有系列值的数据。这些方法提高了代码的复用性、可读性和处理效率,适用于复杂的数据处理场景。原创 2025-09-02 10:00:10 · 42 阅读 · 0 评论 -
24、自定义函数和类实现数据清洗自动化
本文介绍了如何通过自定义函数和类实现数据清洗的自动化,涵盖数据初步探查、摘要统计、异常值识别、数据聚合与合并、值更新逻辑以及非表格数据结构的处理。通过封装常用操作为可复用代码模块,提升数据处理效率和代码可维护性,适用于表格和非表格数据的不同场景。原创 2025-09-01 16:23:37 · 38 阅读 · 0 评论 -
23、数据整理与重塑:多对多关系处理及宽长格式转换
本文详细介绍了在数据处理过程中如何处理多对多关系导致的数据重复问题,以及如何使用`stack`、`melt`、`wide_to_long`、`unstack`和`pivot`等方法进行宽长格式数据的转换。通过示例代码和原理分析,帮助读者理解不同方法的适用场景、优缺点及操作步骤,并结合市场调研和医疗数据的实际应用案例,展示了这些方法的实用性。文章最后提供了方法选择的流程图和总结建议,以帮助用户更高效地进行数据处理和分析。原创 2025-08-31 13:44:08 · 90 阅读 · 0 评论 -
22、数据合并与整理:实用技巧与操作指南
本博客详细介绍了数据处理中的关键操作,包括数据合并例程的开发、重复行的删除以及多对多关系的修复。通过实际示例,展示了如何使用Python中的Pandas库进行数据合并与整理,帮助读者提高数据质量和可用性,为后续的数据分析工作奠定基础。原创 2025-08-30 12:04:47 · 109 阅读 · 0 评论 -
21、数据合并:一对一、多对一和多对多合并实战
本文详细介绍了数据处理中的多对一和多对多合并操作,包括合并的基本概念、操作步骤、注意事项以及具体示例。文章通过气象站数据和艺术博物馆藏品数据展示了不同合并方式的应用场景,并探讨了合并结果的笛卡尔积问题和缺失值处理方法。最后,文章总结了数据合并的通用策略,以帮助读者提高数据合并的效率和准确性。原创 2025-08-29 13:29:25 · 67 阅读 · 0 评论 -
20、合并DataFrame时的数据处理
本文详细介绍了在数据处理过程中使用Pandas进行DataFrame合并的多种方法,包括一对一合并、多合并列的一对一合并以及一对多合并。针对不同连接类型如内连接、外连接、左连接和右连接的原理和使用场景进行了深入解析,并通过具体示例展示了操作方法和注意事项。文章旨在帮助读者更好地理解数据合并操作,为数据分析和处理提供支持。原创 2025-08-28 13:33:15 · 34 阅读 · 0 评论 -
19、Python 数据处理:自定义函数、分组聚合与数据合并技巧
本文介绍了使用Python进行数据处理的高级技巧,包括通过自定义函数与groupby结合实现灵活的数据分组聚合操作,以及如何处理数据合并过程中可能出现的问题。文章还通过具体示例展示了如何使用apply、reset_index、unstack等方法进行数据统计分析,并讨论了垂直合并与水平合并中的注意事项。适合有一定pandas基础并对数据分析深入感兴趣的读者。原创 2025-08-27 11:51:16 · 31 阅读 · 0 评论 -
18、数据聚合时处理杂乱数据的方法与技巧
本文介绍了在数据聚合过程中处理杂乱数据的几种常用方法,包括使用`itertuples`逐行处理数据、利用`NumPy`数组进行高效的跨行计算,以及使用`pandas`的`groupby`方法进行分组统计分析。通过代码示例展示了不同方法的实现方式和适用场景,并对它们的性能进行了比较,帮助读者在实际项目中选择合适的数据处理策略。原创 2025-08-26 14:48:02 · 33 阅读 · 0 评论 -
17、数据清洗与探索:系列操作全解析
本文详细介绍了数据处理中的关键步骤,包括日期解析与时间间隔计算、缺失数据的识别与处理方法、以及多种数据聚合技术。内容涵盖从基础操作到高级技巧,如使用 Pandas 和 Scikit-learn 进行数据清洗与转换,并通过实际案例说明如何选择合适的数据处理方法,帮助读者全面掌握数据预处理的核心技能。原创 2025-08-25 13:07:32 · 33 阅读 · 0 评论 -
16、数据清洗与探索:系列操作全解析
本文详细介绍了在数据清洗和探索性分析中常用的系列操作方法,包括条件性更改系列值、字符串数据的评估与清理以及日期数据的处理技巧。通过NumPy和Pandas库的多种函数与方法,帮助用户提升数据质量,为后续分析和建模打下基础。文中还结合实例代码、流程图和综合案例,直观展示数据处理的完整流程。原创 2025-08-24 14:27:15 · 38 阅读 · 0 评论 -
15、Pandas 系列数据操作全解析
本文详细解析了 Pandas 库中 Series 对象的各种操作方法,包括从系列中获取值、展示摘要统计信息、修改值以及条件性修改值。通过具体的操作示例和实际应用案例,帮助读者全面掌握 Pandas 系列数据的处理与分析技巧,适用于数据清洗和统计分析等场景。原创 2025-08-23 12:32:16 · 30 阅读 · 0 评论 -
14、通过可视化识别异常值与数据探索
本文介绍了如何通过可视化方法如散点图、折线图和热力图来识别数据中的异常值并进行探索性数据分析。文章以Covid病例数据为例,展示了如何使用Matplotlib和Seaborn库进行图表绘制,并分析了不同地区疫情发展趋势和变量之间的相关性。此外,还详细讲解了利用pandas库对数据进行清理和预处理的方法,包括Series操作、缺失值处理以及字符串和日期数据的清洗。最后,文章总结了可视化和数据清理的技术要点,并展望了其在数据分析中的应用价值。原创 2025-08-22 12:15:20 · 36 阅读 · 0 评论 -
13、数据可视化:分组箱线图、小提琴图与散点图的应用
本文介绍了分组箱线图、小提琴图和散点图在数据分析中的应用。通过这些可视化方法,可以深入了解数据分布特征、发现异常值,并分析变量之间的关系。分组箱线图用于比较不同组的数据分布,小提琴图结合了直方图和箱线图的优点,展示了数据的分布形状和频率信息,而散点图则用于分析双变量之间的关系,并通过回归直线进一步揭示线性趋势。原创 2025-08-21 15:12:57 · 53 阅读 · 0 评论 -
12、使用可视化识别异常值
本文介绍了如何使用多种可视化工具来识别数据中的异常值并分析数据分布。涵盖了直方图、箱线图、分组箱线图、小提琴图、散点图、折线图和热力图等常见可视化方法,并结合实际数据(如土地温度数据和新冠病例数据)演示了每种方法的应用场景和分析过程。通过这些工具,可以更直观地理解数据特征,发现隐藏的模式和异常情况,从而为数据分析提供有力支持。原创 2025-08-20 16:32:49 · 46 阅读 · 0 评论 -
11、数据异常值检测:线性回归、K近邻与孤立森林方法
本文介绍了三种常用的数据异常值检测方法:线性回归、K近邻和孤立森林,并通过分析COVID-19病例和死亡数据进行实例演示。线性回归方法通过Cook's距离识别对模型有显著影响的观测点;K近邻利用最近邻差异识别异常值;孤立森林则通过数据划分快速检测异常点。文章还对比了三种方法的优缺点,并提供了异常值处理建议,帮助读者更好地理解和应用这些方法进行数据分析。原创 2025-08-19 12:06:47 · 80 阅读 · 0 评论 -
10、数据异常值与逻辑一致性检测
本文详细介绍了如何识别和处理数据中的异常值和逻辑不一致性。内容涵盖单变量异常值识别、双变量关系中的异常值检测以及数据逻辑一致性的检查方法。通过新冠病例和死亡数据以及美国青年纵向调查数据的实际案例,展示了异常值对数据分析的影响以及处理建议。文章旨在为数据分析提供可靠的数据基础。原创 2025-08-18 09:14:01 · 52 阅读 · 0 评论 -
9、数据评估与异常值处理
本文深入探讨了数据分析中的关键步骤,包括数据类型转换与频率分布分析、连续变量的描述性统计、缺失值的查找与处理、单变量与双变量关系中的异常值识别,以及子集数据的逻辑一致性检查。通过多种统计方法和机器学习算法(如线性回归、k-近邻算法和孤立森林),帮助读者全面掌握数据处理和异常检测技术,为高质量的数据分析奠定基础。原创 2025-08-17 15:31:18 · 89 阅读 · 0 评论 -
8、数据处理:列与行的选择、排序及频率统计
本博客详细介绍了数据处理中列与行的选择、排序以及分类变量频率统计的相关方法。通过使用 pandas 库,讲解了如何利用 loc、iloc 和括号运算符进行行和列的选择,并结合正则表达式进行列筛选。此外,还介绍了频率统计在数据分析、数据清洗及特征工程中的应用,帮助读者更好地理解和处理数据。原创 2025-08-16 15:08:19 · 37 阅读 · 0 评论 -
7、数据处理与分析实用指南
本博客详细介绍了数据处理与分析的实用指南,包括JSON数据的两种持久化方法(JSON库和msgpack)、新数据集的初步评估步骤,以及如何有效地选择和组织DataFrame中的列。通过具体代码示例和数据操作流程图,帮助读者更好地理解数据特性、处理注意事项及后续分析方向。适用于数据分析、数据清洗及探索性研究。原创 2025-08-15 12:46:50 · 42 阅读 · 0 评论 -
5、数据导入与清洗:从表格数据到JSON的全流程处理
本文详细介绍了如何将表格数据导入pandas并进行持久化处理,同时涵盖从CSV、Excel到pickle和feather等多种格式的转换与使用场景。此外,文章还深入探讨了JSON数据的导入与清洗流程,包括对简单JSON和复杂结构化JSON的处理方法,如使用_normalize工具将其转换为表格形式。通过流程图和代码示例,帮助读者全面掌握数据导入与清洗的全流程,提升数据分析效率。原创 2025-08-13 09:36:57 · 35 阅读 · 0 评论 -
4、向 Pandas 导入表格数据时的数据清洗问题
本文详细介绍了如何将来自 SPSS、Stata、SAS 和 R 的数据导入 Pandas,并进行数据清洗和整理。内容涵盖元数据处理、值标签设置、缺失值处理以及多种格式的数据持久化存储方法,如 CSV、Excel、Pickle 和 Feather。通过流程图和代码示例,帮助读者高效处理不同来源的数据,提升数据分析效率。原创 2025-08-12 15:27:42 · 37 阅读 · 0 评论 -
3、数据导入与清洗:Excel、SQL、SPSS、Stata和SAS数据处理
本文详细介绍了如何从Excel文件、SQL数据库以及SPSS、Stata和SAS等统计软件中导入和清洗数据。针对不同数据来源的特点,提供了具体的处理方法,包括跳过无用行、重命名列、处理缺失值、转换数据类型、保留元数据等关键步骤。同时,通过实际应用案例展示了如何整合多源数据,并总结了数据导入和清洗的最佳实践,帮助读者高效完成数据预处理工作,为后续的数据分析打下坚实基础。原创 2025-08-11 15:41:36 · 60 阅读 · 0 评论 -
2、向 pandas 导入表格数据时预见数据清洗问题
本文详细介绍了在使用 pandas 进行数据分析前,如何从多种数据源(如 CSV 文件、Excel 文件、SQL 数据库、SPSS、Stata、SAS 以及 R 数据)导入表格数据,并处理常见的数据清洗问题。内容涵盖设置列名、解析日期、处理缺失值、数据类型转换、删除无效数据等关键步骤。此外,还介绍了如何将处理后的数据保存为不同格式,如 CSV、Excel 和 SQL 数据库,为后续的数据分析和挖掘工作奠定基础。原创 2025-08-10 09:40:11 · 43 阅读 · 0 评论 -
1、Python 数据清洗实用指南
本文是一篇关于使用 Python 进行数据清洗的实用指南,涵盖了从数据导入、查看与统计、识别缺失值和异常值、数据可视化、数据清洗与探索、聚合与组合数据、整理和重塑数据,到自定义函数和类实现数据清洗自动化的完整流程。文章适合具备基本 Python 编程知识并希望处理杂乱、重复和劣质数据的读者,旨在帮助提升数据清洗效率和质量,为后续数据分析打下坚实基础。原创 2025-08-09 16:14:09 · 31 阅读 · 0 评论
分享