一、引言
在数据处理的世界里,Pandas 就像一把瑞士军刀,能高效解决各类表格数据操作难题。以学生成绩分析场景为例,我们可以借助它轻松完成成绩计算、统计分析等任务,借此深入理解其基础用法。
二、Pandas 核心数据结构
(一)Series
可看作带标签的一维数组,就像成绩表中某一列数据(如小孙的语文考试成绩 90 ),标签(索引)可自定义,方便精准定位和操作单个数据。
(二)DataFrame
二维表格型数据结构,如同完整的成绩表,既有行索引(对应不同同学),又有列索引(对应科目、成绩类型等),能容纳多样数据并进行灵活处理。
三、数据读取与构建
(一)手动构建
通过字典创建 DataFrame ,字典键对应列名(如 ' 姓名 '、' 语文考试成绩 ' ),值对应列数据,快速构建小型数据集,像我们模拟的学生成绩数据。
(二)文件读取
实际场景常用 pd.read_csv pd.read_excel 等函数,从 CSV、Excel 文件导入数据,让外部结构化数据轻松进入 Pandas 生态处理。
四、数据操作基础
(一)列运算与新列创建
利用算术运算,结合考试、平时成绩占比规则(如考试 60% + 平时 40% ),新增 “最终成绩” 列,实现数据衍生,这是指标计算的常用方式。
(二)统计计算
- 均值计算:
mean方法,可按行(同学多科目平均分)、按列(科目全体同学平均分)统计,快速把握数据集中趋势。 - 最值计算:
max方法,同理可获取同学单科目最高分、科目全体同学最高分,挖掘数据极值。
(三)条件判断与统计
通过布尔判断(如成绩 ≥ 60 为及格 ),结合 sum 统计及格人数,mean 计算及格率,实现条件筛选与比例分析,是数据质量评估、达标分析的关键手段。
五、总结
借助成绩分析案例,我们初步认识 Pandas 数据结构和核心操作。从数据构建到运算、统计、条件分析,Pandas 让复杂表格数据处理变得简洁高效。掌握这些基础,就能开启多样数据场景的分析之旅,无论是成绩分析、业务报表处理,还是科研数据挖掘,它都将成为得力助手,助力我们从数据中挖掘价值 。
876

被折叠的 条评论
为什么被折叠?



