pandas文件读取

本文介绍了如何使用Python的pandas库来读取CSV文件,包括更改工作目录,读取指定列,处理缺失值,以及通过迭代器统计CSV中特定列的键值出现次数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#改变工作路径
import os
print(os.getcwd())#打印当前工作目录
print(os.listdir())

os.chdir(‘C:/Users/Administrator’)

print(os.getcwd())
print(os.listdir())
#C:\Users\Administrator.kaggle/world-happiness-report-2019.csv

import pandas as pd

df = pd.read_csv(‘C:/Users/Administrator/.kaggle/world-happiness-report-2019.csv’,sep=’,’)
df.head()

#列明缺失
dfs = pd.read_csv(‘C:/Users/Administrator/.kaggle/world-happiness-report-2019.csv’,sep=’,’,header=None)
dfs.tail()

#指定列名
dfs1 = pd.read_csv(‘C:/Users/Administrator/.kaggle/world-happiness-report-2019.csv’,sep=’,’,header=None,names=list(‘abcdefghij’),chunksize=10)

for price in dfs1:
print(price)
‘’’
读取数据是指定一个列作为行索引 index_col=“msg”
读取数据时指定多个列作为行索引 index_col=[“a”,“b”]
处理不规整的分割符 pd.read_table(‘data/ex3.csv’, sep=’\s+’)

‘’’

#读取文件是指定那些是缺省值 na_values=[‘NA’,‘NULL’]
#指定那些列的那些值为缺省值 na_values={‘a列’:[‘0’,‘NA’]}
#逐块读取 nrows=10
#产生一个贴袋器读取文件 chunksize=10
‘’’

统计每个 key 出现的次数

tr = pd.read_csv(‘data/ex6.csv’, chunksize=1000) #tr为返回的一个迭代器 textFileReader

key_count = pd.Series([])
for pieces in tr:
key_count = key_count.add(pieces[‘key’].value_counts(), fill_value=0) #Series的相加,自动索引对齐
key_count = key_count.sort_values(ascending=False) #排序
key_count[:10]

‘’’

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值