在Python中,可使用`pd.read_csv()`方法读取CSV文件。CSV文件是用逗号和换行符区分数据记录和字段的文件结构,能用Excel表格或记事本编辑,是类Excel的数据存储文件,也可看成一种数据库。`pd.read_csv()`可将其中的数据转换成DataFrame数据帧,还能把不同数据库类型(如txt、csv、.xls、.sql)转换成统一的DataFrame格式进行统一处理 [^1]。
以下是`pd.read_csv()`的基本使用方法及代码示例:
```python
import pandas as pd
# 基本读取操作
data1 = pd.read_csv('rating.csv')
print(data1)
# 取消第一行作为表头
data2 = pd.read_csv('rating.csv', header=None)
print(data2)
# 为各个字段取名
data3 = pd.read_csv('rating.csv', names=['user_id', 'book_id', 'rating'])
print(data3)
# 将某一字段设为索引
data3 = pd.read_csv('rating.csv', names=['user_id', 'book_id', 'rating'], index_col="user_id")
print(data3)
# 用sep参数设置分隔符
data4 = pd.read_csv('rating.csv', names=['user_id', 'book_id', 'rating'], sep=',')
print(data4)
# 自动补全缺失数据为NaN
data5 = pd.read_csv('data.csv', header=None)
print(data5)
```
`pd.read_csv()`常用参数如下 [^3]:
```python
pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)
```
其中,比较常用的参数有 [^2]:
- `filepath_or_buffer`:需要读取的文件路径,输入路径时可在路径前加 `r` 避免转义,路径最好是纯英文。例如:
```python
import pandas as pd
df1 = pd.read_csv(r'C:/Users/37957/Desktop/demo1.txt')
```
- `sep`:分隔符,默认为 `,`。