数据科学实验2(python基础02)

一、数据读取

  1. pd.read_csv()pandas库)
    • 功能:读取 CSV 格式文件,也能处理其他分隔符分隔的数据。可处理含表头数据,自动识别第一行为列名(可调整),能处理多种数据类型,还可处理缺失值(识别为NaN,可自定义)。
    • 常用参数
      • 'file_path':文件路径,当前目录可直接写文件名,在子目录下需完整路径。
      • index_col:指定某列作为索引列,将已有列设为索引,便于数据访问。
      • sep:指定分隔符,默认逗号,制表符分隔文件可设为'\t'

二、数据可视化

  1. 库导入
    • import seaborn as snsimport matplotlib.pyplot as pltseaborn基于matplotlib用于绘制统计图形,matplotlib用于创建各种可视化图形,plt是常用子模块,在复杂绘图或高级定制时matplotlib很有用。
  2. 绘图风格设置
    • sns.set_style("darkgrid"):设置绘图背景为灰色网格风格,使图形清晰易读,利于观察数据分布趋势。
  3. 散点图绘制
    • sns.scatterplot()sns.stripplot()
      • sns.scatterplot(x, y, data)sns.stripplot(x, y, data):绘制散点图,x指定横轴数据列名,y指定纵轴数据列名,data指定数据集(如DataFrame)。
  4. 箱线图绘制
    • sns.boxplot()
      • 功能:绘制箱图展示数据分布,通过最小值、第一四分位数、中位数、第三四分位数和最大值呈现。箱子(Q1 - Q3)含中间 50% 数据,中间线为中位数,上下 whisker 显示数据范围(通常 1.5 倍四分位距),超出范围的异常值以点显示。
      • 参数
        • xyx指定分组变量,y指定数值变量。如sns.boxplot(x='class', y='score', data=df)绘制不同班级学生成绩箱图。
        • data:指定数据集。
        • hue:添加额外分组变量,按其取值绘制不同颜色箱图,方便对比。
  5. 图形标题和坐标轴标签设置
    • scatter_plot.set_title('title_text'):设置图形标题,描述图形内容。
    • scatter_plot.set(xlabel='x_label_text', ylabel='y_label_text'):设置横纵坐标标签,明确坐标轴含义。
  6. 图形显示:在普通 Python 环境需plt.show()显示图形,部分特定环境(如飞桨某些 notebook 环境)有自动显示机制。

三、数据结构相关

  1. pandasDataFrame对象pd.read_csv()返回DataFrame,是二维表格结构,有行索引和列索引,可通过列名访问数据列,方便数据操作。
  2. numpy数组np.loadtxt()返回numpy数组,适用于数值计算,但基于列名的数据操作不如DataFrame方便,通过索引访问列数据。

四、其他

  1. 代码运行环境:不同编程环境和工具有不同默认行为和配置,可能影响代码执行结果,如图形显示方式等,需了解环境特点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值