数据分析-外部数据的读取与存储

本文介绍如何使用Python进行CSV、TXT、JSON及Excel等格式的数据读取与存储操作,包括指定行索引、自定义读取范围、指定分隔符等功能,并提供实际代码示例。

在这里插入图片描述

4.外部数据的读取与存储

1.文本数据的读取和存储

- (1)CSV文件的读取:read_csv()

	  import pandas as pd
	  df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex1.csv'))
	  df
	  注意:读取CSV文件时,如果文件路径中有中文,需要加open函数,否则会报错。
	  
	  path = open("绝对路径")
	  df = pandas.read_csv(path)
	- 1.指定列作为行索引

	  # 指定列为行索引,通过index_col参数指定 id列 为 行索引
	  df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex1.csv'),index_col = 'id')

		- index_col参数指定 列 为 行索引

	- 2.当无标题行,标题行设置

		- header

		  !type H:\我的视频录制\从零开始学Python数据分析\data\ch4ex3.csv
		  1,lucky,87
		  2,peter,92
		  3,lili,85
		  df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex3.csv'))
		  df
		  1 lucky 87 # 为标题行,不符合实际情况
		  df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex3.csv'), header=None)
		  0 1 2 # 设置默认标题行(列名)

		- names

		  df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex3.csv'), names=['id','name','grade'])
		  id name grade  # 指定列名

	- 3.自定义读取

	  由于数据原因或者数据分析的需要,有时可能只需选择读取部分行或者列。
	  !type H:\我的视频录制\从零开始学Python数据分析\data\ch4ex4.csv
	  #This is grade
	  id,name,grade
	  1,lucky,87
	  2,peter,92
	  3,lili,85
	  #time
	  # 跳过第0行和第5行
	  df = pd.read_csv(open(r'H:\我的视频录制\从零开始学Python数据分析\data\ch4ex4.csv'),skiprows=[0,5])
	  df

		- skiprows

	- 4.读取部分数据

		- nrows

	- 5.指定分隔符(默认为制表符)

		- sep=','

	- 6.chunksize

		- 文件块大小

	- 7.指定读取的列

		- usecols=['列名1',’列名2‘]

- (2)TXT文件的:read_table()

	- 指定分隔符(默认为制表符)

		- sep='?'

- (3)文本数据的存储:to_csv(“path”,[可选参数])

	- 默认数据存储到以逗号分隔的CSV文件中
	- sep='?'指定分隔符

- (4)查看数据

- !type方法只适用于windows

  !type H:\我的视频录制\从零开始学Python数据分析\data\ch4ex1.csv

- !cat方法适用于UNIX

2.JSON和Excel数据的读取和存储

  • JSON

    (1) read_json()函数来读取JSON数据

	  df = pd.read_json('H:\我的视频录制\从零开始学Python数据分析\data\eueo2012.json')
	  df

  (2)to_json()函数对DataFrame数据进行相应的存储

	  df.to_json('out3.json')
	  !type out3.json
  • Excel

    (1) read_excel

	  df = pd.read_excel('H:\我的视频录制\从零开始学Python数据分析\data\ch4ex7.xlsx',sheet_name='Sheet1')
  df

(2)to_excel
	  df.to_excel('out4.xlsx',sheet_name='out',index=None)
	  # index=None不加行索引
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值