CSV数据的处理（增加行列索引，提取，构造，保存）

最新推荐文章于 2024-09-19 23:20:08 发布

weixin_30237281

最新推荐文章于 2024-09-19 23:20:08 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

文章标签：数据库 python

原文链接：http://www.cnblogs.com/hanbb/p/7994617.html

本文介绍如何使用Python的pandas库进行CSV数据处理，包括数据读取、解析、切片及构造等操作，并演示了如何设置数据索引、提取特定列和行数据、构造新数据集及保存修改后的数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CSV数据的处理：

1.数据行和列索引的设置。

2.数据的解析代码和时间的处理。

3.从原始数据中切片数据（提取部分数据）。

4.行列数据的提取（含多行数据）

5.数据的构造。

# hanbb
# come on!!!
import pandas as pd
import csv

# 标题的设置
column_title = ['时间','上海A股','上海A股最新值','股票家数','亏损家数','近一月数据','近三月数据','近六月数据','近一年月数据',
                '深圳A股','深圳A股最新值','深圳A股股票家数','深圳A股亏损家数','深圳A股近一月数据','深圳A股近三月数据','深圳A股近六月数据','深圳A股近一年月数据',
                '沪深A股板块名称','沪深A股最新值','沪深A股股票家数','沪深A股亏损家数','沪深A股近一月数据','沪深A股近三月数据','沪深A股近六月数据','沪深A股近一年月数据',
                '深市主板板块名称','深市主板最新值','深市主板股票家数','深市主板亏损家数','深市主板近一月数据','深市主板近三月数据','深市主板近六月数据','深市主板近一年月数据',
                '中小板板块名称','中小板最新值','中小板股票家数','中小板亏损家数','中小板近一月数据','中小板近三月数据','中小板近六月数据','中小板近一年月数据',
                '创业板板块名称','创业板最新值','创业板股票家数','创业板亏损家数','创业板近一月数据','创业板近三月数据','创业板近六月数据','创业板近一年月数据',]

# 部分数据的截取
guxilv = pd.read_csv("E:\\download2\\guxilv.csv",encoding="gbk",names=column_title,index_col='时间',usecols=[0,1,3],parse_dates=True)   # usecols 提取部分数据
print(guxilv)

# 数据的读取，解码，设置列标题，设置行表标题
guxilv = pd.read_csv("E:\\download2\\guxilv.csv",encoding="gbk",names=column_title,index_col='时间')  # 需要设置编码，否则打不开

# column 标题
print(guxilv.columns)

# 时间设置为index
print(guxilv.index)

# 提取列信息
print(guxilv['中小板最新值'])                   # 带时间索引
print(guxilv['中小板最新值'].values)            # 只有值
print(guxilv[['中小板最新值','创业板最新值']])  # 两列数据

# 提取行信息
print(guxilv.ix['2017-12-06'])

# 数据的构造
new_info = pd.DataFrame({'shA':guxilv['上海A股最新值']})
new_info = new_info.join(pd.DataFrame({'szA':guxilv['深圳A股最新值']}))
# new_info = new_info.join(pd.DataFrame({'shA':guxilv['深圳A股最新值']}))
# new_info = new_info.fillna(method='ffill')
print(new_info)

数据的保存

1.将新修改的数据保存早新的文件中

import pandas as pd

# 标题的设置
column_title = ['时间','上海A股','上海A股最新值','股票家数','亏损家数','近一月数据','近三月数据','近六月数据','近一年月数据',
                '深圳A股','深圳A股最新值','深圳A股股票家数','深圳A股亏损家数','深圳A股近一月数据','深圳A股近三月数据','深圳A股近六月数据','深圳A股近一年月数据',
                '沪深A股板块名称','沪深A股最新值','沪深A股股票家数','沪深A股亏损家数','沪深A股近一月数据','沪深A股近三月数据','沪深A股近六月数据','沪深A股近一年月数据',
                '深市主板板块名称','深市主板最新值','深市主板股票家数','深市主板亏损家数','深市主板近一月数据','深市主板近三月数据','深市主板近六月数据','深市主板近一年月数据',
                '中小板板块名称','中小板最新值','中小板股票家数','中小板亏损家数','中小板近一月数据','中小板近三月数据','中小板近六月数据','中小板近一年月数据',
                '创业板板块名称','创业板最新值','创业板股票家数','创业板亏损家数','创业板近一月数据','创业板近三月数据','创业板近六月数据','创业板近一年月数据',]

# 数据的读取
guxilv = pd.read_csv("E:\\download2\\guxilv.csv",encoding="gbk",names=column_title,index_col='时间',parse_dates=True)   # usecols 提取部分数据

# 数据的存取
guxilv.to_csv("E:\\download2\\guxilv2.csv")

print(guxilv)