一、数据读取
pd.read_csv()
(pandas
库)- 功能:读取 CSV 格式文件,也能处理其他分隔符分隔的数据。可处理含表头数据,自动识别第一行为列名(可调整),能处理多种数据类型,还可处理缺失值(识别为
NaN
,可自定义)。 - 常用参数:
'file_path'
:文件路径,当前目录可直接写文件名,在子目录下需完整路径。index_col
:指定某列作为索引列,将已有列设为索引,便于数据访问。sep
:指定分隔符,默认逗号,制表符分隔文件可设为'\t'
。
- 功能:读取 CSV 格式文件,也能处理其他分隔符分隔的数据。可处理含表头数据,自动识别第一行为列名(可调整),能处理多种数据类型,还可处理缺失值(识别为
二、数据可视化
- 库导入
import seaborn as sns
和import matplotlib.pyplot as plt
:seaborn
基于matplotlib
用于绘制统计图形,matplotlib
用于创建各种可视化图形,plt
是常用子模块,在复杂绘图或高级定制时matplotlib
很有用。
- 绘图风格设置
sns.set_style("darkgrid")
:设置绘图背景为灰色网格风格,使图形清晰易读,利于观察数据分布趋势。
- 散点图绘制
sns.scatterplot()
和sns.stripplot()
:sns.scatterplot(x, y, data)
和sns.stripplot(x, y, data)
:绘制散点图,x
指定横轴数据列名,y
指定纵轴数据列名,data
指定数据集(如DataFrame
)。
- 箱线图绘制
sns.boxplot()
:- 功能:绘制箱图展示数据分布,通过最小值、第一四分位数、中位数、第三四分位数和最大值呈现。箱子(Q1 - Q3)含中间 50% 数据,中间线为中位数,上下 whisker 显示数据范围(通常 1.5 倍四分位距),超出范围的异常值以点显示。
- 参数:
x
和y
:x
指定分组变量,y
指定数值变量。如sns.boxplot(x='class', y='score', data=df)
绘制不同班级学生成绩箱图。data
:指定数据集。hue
:添加额外分组变量,按其取值绘制不同颜色箱图,方便对比。
- 图形标题和坐标轴标签设置
scatter_plot.set_title('title_text')
:设置图形标题,描述图形内容。scatter_plot.set(xlabel='x_label_text', ylabel='y_label_text')
:设置横纵坐标标签,明确坐标轴含义。
- 图形显示:在普通 Python 环境需
plt.show()
显示图形,部分特定环境(如飞桨某些 notebook 环境)有自动显示机制。
三、数据结构相关
pandas
的DataFrame
对象:pd.read_csv()
返回DataFrame
,是二维表格结构,有行索引和列索引,可通过列名访问数据列,方便数据操作。numpy
数组:np.loadtxt()
返回numpy
数组,适用于数值计算,但基于列名的数据操作不如DataFrame
方便,通过索引访问列数据。
四、其他
- 代码运行环境:不同编程环境和工具有不同默认行为和配置,可能影响代码执行结果,如图形显示方式等,需了解环境特点。