- 博客(76)
- 收藏
- 关注
原创 pandas11(时间序列1)——日期和时间数据的类型及工具(strftime\strptime\trncate\groupby\dt属性)
本文介绍了时间序列数据处理的基本概念和Python工具。主要内容包括:时间序列的定义(固定频率或不定期)、日期时间数据类型(datetime模块使用)、字符串与datetime的相互转换方法(strftime/strptime)。重点讲解了pandas处理时间序列的核心操作:基础时间序列创建(DatetimeIndex)、数据索引选取(按年/月切片)、处理重复时间戳(groupby聚合)以及dt属性的灵活应用(提取日期组件、判断日期特征等)。文章还展示了如何利用pandas.to_datetime进行日期解
2025-07-22 16:12:13
502
原创 Pandas10——数据清洗可视化全过程例子
摘要:本文介绍了使用Python进行房价数据分析的全流程。首先从GitHub获取并解压数据集,使用pandas查看数据基本信息。然后通过直方图可视化数值分布,对缺失值进行填充处理。接着对收入数据进行分箱处理并可视化,同时绘制地理坐标散点图展现房价分布。最后对重尾特征进行对数转换。完整代码展示了数据获取、清洗、可视化和预处理的关键步骤,为后续建模分析奠定基础。
2025-07-09 10:56:16
393
原创 Pandas9(绘图)——使用pandas自带的plot属性之后的函数进行绘图
本文介绍了pandas内置的绘图方法,主要围绕DataFrame和Series的plot()方法展开。文章详细列举了plot()方法的常用参数,包括轴标签、标题、刻度、对数坐标等设置。通过示例代码展示了Series和DataFrame的基本线图绘制方法,以及如何创建包含多个子图的复杂图表。特别介绍了柱状图(bar和barh)的绘制技巧,包括垂直/水平柱状图、分组柱状图和堆叠柱状图的实现方式。文中提供了丰富的代码示例和可视化效果图,帮助读者快速掌握pandas数据可视化的基本操作。
2025-07-07 16:18:54
607
原创 Pandas8(可视化)——polt()\scatter()\bar()\hist()\pie()\boxplot()、子图、savefig()
Matplotlib是Python中重要的数据可视化库,主要用于数据探索和建模分析。摘要涵盖五个核心绘图函数:1) plot函数绘制折线图,支持颜色、线型和标记样式设置;2) scatter函数创建散点图,可调整点的大小、颜色和透明度;3) bar函数生成柱状图,控制柱体宽度、颜色和对齐方式;4) hist函数绘制直方图,配置区间划分和累积统计;5) pie函数制作饼图,自定义标签、百分比和突出显示。每种函数都详细列出关键参数及其作用,并附有基础使用示例代码和效果图
2025-07-07 16:17:15
980
原创 python的高级4——闭包、装饰器
本文介绍了Python中的闭包和装饰器概念。闭包是指内部函数引用外部函数变量的结构,具有保存状态和数据隐藏的作用。装饰器是闭包的特殊应用,通过接受函数作为参数并返回新函数来扩展功能,使用@语法简化调用。文章详细讲解了闭包和装饰器的特点、实现方式、常见应用场景及注意事项,并分析了两者关系:装饰器建立在闭包基础上,专门用于函数行为修改。最后介绍了内置装饰器如@property、@classmethod的使用方法。
2025-07-02 10:07:40
755
原创 Pandas7(数据规整)——层次化索引(创建\变换)、groupby、merge\join\concat
数据规整摘要 数据规整是数据分析中的核心环节,主要包括层次化索引、分组操作和数据集合并三部分内容。层次化索引允许在单个轴上创建多层索引,通过from_tuples/arrays/product等方法构建,并支持复杂的数据选择和排序操作。分组(groupby)功能可根据列值分类数据,进行聚合计算和自定义操作。数据集合并(merge)则实现了类似SQL的join操作,支持内连接、外连接等多种模式,并能处理重复列名问题。这些技术共同构成了高效数据清洗和预处理的基础工具。
2025-07-02 10:06:04
947
原创 Pandas4(数据读取)——StringIO,csv\html等文件读取, 与Web API交互
Pandas提供了全面的文件读写功能,支持CSV、JSON、Excel和SQL等多种格式。StringIO模块允许内存文件操作,适合临时数据处理。CSV读取支持分隔符、列类型、缺失值等参数设置;JSON可转换Python与Pandas数据结构。Excel操作包括多sheet读取和格式控制,推荐使用ExcelWriter自动保存。SQL支持通过SQLAlchemy连接多种数据库。每种格式都有丰富的参数配置,如编码、数据类型转换、行列选择等,满足不同数据处理需求,同时保持高效的内存管理
2025-07-01 08:13:22
947
原创 Pandas6(数据清洗2)——置换和随机采样、get_dummies、扩展数据类型、字符串处理函数
本文介绍了数据清洗中的四个关键操作: 置换和随机采样 - 使用permutation打乱数据顺序,sample进行随机抽样,支持有放回/无放回抽样和权重设置 分类编码 - get_dummies函数实现独热编码,将分类变量转为数值形式,支持前缀设置和缺失值处理 扩展数据类型 - 介绍Pandas的Int8Dtype、BooleanDtype等扩展类型,解决Numpy数据类型在缺失值处理等方面的问题 正则表达式 - 使用re模块进行字符串模式匹配、替换和拆分,compile方法可将正则表达式编译为可重用对象
2025-06-30 18:19:39
837
原创 Pandas5(数据清洗1)——缺失值处理、数据去重/转换/替换、离散化/分箱、检测和过滤异常值
本文主要介绍了Pandas数据清洗的核心方法,包括处理缺失数据、数据转换、重命名轴索引和离散化分箱。
2025-06-30 18:14:34
414
原创 Pandas3——排序和排名、统计函数
Pandas提供了多种数据排序和统计分析方法。排序方面包括sort_index()按索引排序、sort_values()按数值排序和rank()数据排名,支持多级索引、升降序、缺失值处理等参数配置。统计函数涵盖常用聚合运算(sum/mean/max等)、协方差cov()和相关系数corr()矩阵计算,以及分位数quantile()等专用方法。这些方法共享axis、skipna等通用参数,并各有特定参数如ddof调整标准差计算方式。灵活运用这些功能可以高效完成数据排序、排名和统计分析任务,其中特别需要注意缺失
2025-06-19 16:24:13
758
原创 Pandas2——索引对象(series\dataframe的索引操作),运算、apply\map函数
Pandas索引对象与数据运算概述 Pandas的索引对象是Series和DataFrame的核心组件
2025-06-19 15:37:26
738
原创 Pandas1——Pandas简介 \ 简单的Series\DataFrame属性和方法 \DataFrame的增删改查
Pandas 数据分析库摘要 Pandas 是 Python 中强大的数据分析库,提供两种核心数据结构:Series(一维带标签数组)和 DataFrame(二维表格)。两者都支持标签式索引和丰富的数据操作。
2025-06-17 17:23:35
792
原创 Numpy10——特殊矩阵,矩阵的运算性质,linalg,plt模块的介绍
总结了线性代数中常见的特殊矩阵类型、性质和矩阵分解方法,并介绍了NumPy线性代数模块的核心功能
2025-06-17 17:21:40
554
原创 Numpy8——正交矩阵、特征值和特征向量、矩阵的对角化
介绍了正交矩阵和矩阵对角化的核心概念,展示如何使用NumPy验证正交矩阵性质、计算特征值/向量以及实现矩阵对角化应用
2025-06-16 08:26:55
721
原创 Numpy6——数学1(向量)
两个向量作为输入得到一个新的向量,得到的向量垂直于输入向量所构建的平面。(适用于三维空间,两个向量相乘得到一个向量):向量×向量,逐个元素相乘,再将相乘得到的结果进行相加,得到一个标量,满足交换律。向量的标量乘法:实数×向量,每个元素乘以实数,返回一个一维向量。在几何上表示两个向量的模相乘,再乘两个向量的夹角的cos值。本质:NumPy 的“向量”是 一维数组,没有行列区分。:向量的每个元素都相乘,最后返回一个一维向量。向量的加减法:逐个元素相加减。:两个向量相乘得到一个矩阵。表现形式:一维数组,
2025-06-10 16:53:08
979
原创 python高级3——元类与动态类创建
Python元类(Metaclass)是用于创建类的类,作为Python的高级特性,它能够控制类的创建过程。默认元类是type,所有类都是type的实例。通过继承type并重写__new__、__init__等方法可以自定义元类,实现类属性的自动修改、子类注册、接口强制检查等功能。元类在ORM框架、插件系统中有广泛应用。 动态类则是在运行时创建的类,利用type()函数或types.new_class()实现。动态创建类可以灵活添加属性和方法,适用于需要根据运行条件决定类结构的场景。动态类展现了Python
2025-05-29 19:02:17
793
原创 多容器运行
本文探讨了Docker容器之间的网络互联问题。默认情况下,容器与主机、容器与容器之间无法直接通信。通过端口映射(-p参数)可以实现容器与主机的互联,而容器之间的互联则可以通过多容器运行实现。
2025-05-09 17:17:37
183
原创 docker常用命令总结
本文介绍了Docker的常用命令,分为镜像、容器和网络三部分。镜像篇包括拉取、登录、上传、构建、导入、查看、格式化输出、查看详细信息、重命名、删除、导出和搜索镜像等操作。容器篇涉及运行、查看日志、查看运行中的容器、查看所有容器记录、查看详细信息、停止、启动、进入、查看端口转发、提交为镜像、删除容器以及使用Docker Compose管理多个容器。网络篇则包括查看所有网络模式、查看特定网络模式下的容器、创建自定义网络和删除网络等命令。这些命令为Docker的日常使用提供了全面的操作指南。
2025-05-09 15:24:55
657
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人