DataFrame操作——数据读取

这篇博客详细介绍了如何使用Pandas的DataFrame进行数据读取,重点讲解了`pd.read_csv()`函数的关键参数,包括`filepath`、`sep`、`header`和`dtype`。通过实例展示了如何读取CSV、TXT等不同格式的文件,以及如何处理无表头的数据和自定义数据类型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

接着上一个博客,https://blog.youkuaiyun.com/waveplot/article/details/88666090

在Series和DataFrame介绍完后,也就是pandas的内置函数,也是一般我们学习pandas的重点。

pd.read_csv()

read函数有几个关键参数,以下介绍:

filepath:文件路径和文件名

sep:分隔符

header:指定读取文件的哪一行作为列的label

dtype:指定读取某一列读取时的格式

  • 文件读取函数,在没有特殊要求的情况下,只需要输入一个文件名就可以了也就是 filepath

为了显示方便,使用的是Jupyter 

没有什么技术含量,直接放进来就行,raw就是一个DataFrame了。

只不过我们这里读取的是一个CSV文件,那么问题来了,其他文件怎么读?

  • txt可不可以呢?当然,都是可以的。

txt文件读进来也是和Excel一样的。但是这里需要注意,文件存储的时候,字符之间是以空格区分的,

所以在数据读取的时候出现了错误。这时候就要使用sep参数

那么问题就又来了,既然是txt文件,那个数据存储的方式应该有多种,那么如何读取?

                                 

 

可以看到,read_csv() 函数以'sep'选项来区分txt字符之间的间隔的。

  • 上面是一些普通文件的读取,那如果是一些没有表头的数据呢?如果按照上面的读取方法是不是少了一行?那么这个时候就应该忽略表头,将文件全部视为要操作的值。

上面这个数据在读取时,不需要表头。因此借助 header 参数

如果自己要加上label的话,则需要将 header 赋上其他值

可以看到,文件中的第二行作为数据的label被读取了。

  • 很多人也有时很困扰,尤其是习惯了C++编程的同学。会表示:为什么文件读取可以同时存在字符串和数字?

当然,这是因为Python为我们进行了自动识别。但是我们如果有一些特殊要求呢?比如 010 如果正常读取的话就是10,而我们如果想要将其读入为 '010'字符串呢?

这时候就要用 dtype 参数了

 

可以看到,dtype这个参数是非常有用的,它可以控制我们读取文件时,每一个数据的形式。

### 如何在 Pandas 中读取 DataFrame 数据 #### 使用 `read_csv` 函数读取 CSV 文件 Pandas 提供了多种方式来读取不同格式的数据文件到 DataFrame 中。最常用的方式之一是从 CSV 文件中读取数据: ```python import pandas as pd df = pd.read_csv('data.csv') print(df.head()) # 显示前五行数据[^2] ``` 此代码片段展示了如何使用 `pd.read_csv()` 方法加载名为 'data.csv' 的文件,并将其存储在一个名为 `df` 的 DataFrame 对象里。 #### 使用 `read_excel` 函数读取 Excel 文件 除了CSV之外,还可以轻松地从Excel工作簿导入数据: ```python df = pd.read_excel('data.xlsx', sheet_name='Sheet1') # 如果要指定特定的工作表,则可以通过sheet_name参数设置名称或索引位置 print(df.tail()) # 打印最后几行记录以便快速查看数据集末端的内容 ``` 这里说明了利用 `pd.read_excel()` 来打开扩展名为 .xlsx 或者其他支持的电子表格格式文档,并指定了具体的工作表名作为输入源。 #### 查看 DataFrame 基本信息 一旦成功创建了一个 DataFrame 实例之后,就可以调用一些内置的方法来进行初步探索分析: - `.head(n)` 返回前 n 行,默认为5; - `.tail(n)` 获取后 n 行; - `.info()` 展示有关各字段类型的概览以及是否存在缺失值的情况; - `.describe()` 给出数值型特征统计摘要; 这些操作有助于理解所处理的数据集的整体情况及其内部结构特点[^3]。 #### 将 DataFrame 转换为 NumPy 数组 有时为了执行某些计算密集型任务可能需要将整个 DataFrame 变换成更底层的形式——比如 Numpy Array ——这时可以借助于 `.values` 属性完成转换过程: ```python numpy_array = df.values print(numpy_array) ``` 这段脚本实现了把之前定义好的 DataFrame `df` 转化成一个二维 numpy 数组 `numpy_array` 并打印出来[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值