
4.外部数据的读取与存储
1.文本数据的读取和存储
- (1)CSV文件的读取:read_csv()
import pandas as pd
df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex1.csv'))
df
注意:读取CSV文件时,如果文件路径中有中文,需要加open函数,否则会报错。
path = open("绝对路径")
df = pandas.read_csv(path)
- 1.指定列作为行索引
# 指定列为行索引,通过index_col参数指定 id列 为 行索引
df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex1.csv'),index_col = 'id')
- index_col参数指定 列 为 行索引
- 2.当无标题行,标题行设置
- header
!type H:\我的视频录制\从零开始学Python数据分析\data\ch4ex3.csv
1,lucky,87
2,peter,92
3,lili,85
df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex3.csv'))
df
1 lucky 87 # 为标题行,不符合实际情况
df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex3.csv'), header=None)
0 1 2 # 设置默认标题行(列名)
- names
df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex3.csv'), names=['id','name','grade'])
id name grade # 指定列名
- 3.自定义读取
由于数据原因或者数据分析的需要,有时可能只需选择读取部分行或者列。
!type H:\我的视频录制\从零开始学Python数据分析\data\ch4ex4.csv
#This is grade
id,name,grade
1,lucky,87
2,peter,92
3,lili,85
#time
# 跳过第0行和第5行
df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex4.csv'),skiprows=[0,5])
df
- skiprows
- 4.读取部分数据
- nrows
- 5.指定分隔符(默认为制表符)
- sep=','
- 6.chunksize
- 文件块大小
- 7.指定读取的列
- usecols=['列名1',’列名2‘]
- (2)TXT文件的:read_table()
- 指定分隔符(默认为制表符)
- sep='?'
- (3)文本数据的存储:to_csv(“path”,[可选参数])
- 默认数据存储到以逗号分隔的CSV文件中
- sep='?'指定分隔符
- (4)查看数据
- !type方法只适用于windows
!type H:\我的视频录制\从零开始学Python数据分析\data\ch4ex1.csv
- !cat方法适用于UNIX
2.JSON和Excel数据的读取和存储
-
JSON
(1) read_json()函数来读取JSON数据
df = pd.read_json('H:\我的视频录制\从零开始学Python数据分析\data\eueo2012.json')
df
(2)to_json()函数对DataFrame数据进行相应的存储
df.to_json('out3.json')
!type out3.json
-
Excel
(1) read_excel
df = pd.read_excel('H:\我的视频录制\从零开始学Python数据分析\data\ch4ex7.xlsx',sheet_name='Sheet1')
df
(2)to_excel
df.to_excel('out4.xlsx',sheet_name='out',index=None)
# index=None不加行索引
本文介绍如何使用Python进行CSV、TXT、JSON及Excel等格式的数据读取与存储操作,包括指定行索引、自定义读取范围、指定分隔符等功能,并提供实际代码示例。
798

被折叠的 条评论
为什么被折叠?



