Python处理表格的设计总结,python处理表格数据的库

本文介绍了如何使用Python的Pandas库来读取、处理CSV文件,包括读取数据、查看数据、去除重复项、选择列和保存新表。重点展示了如何使用`pd.read_csv`和`drop_duplicates`函数进行基础操作。

本篇文章给大家谈谈python处理表格要安装什么模块,以及Python处理表格前15%的成绩为A,希望对各位有所帮助,不要忘了收藏本站喔。

Source code download: 本文相关源码

之前是直接用Excel处理数据,后来觉得实在是繁琐,尤其在数据量过大的情况下,特此去学了用python处理数据。学完之后不禁感叹pandas的强大python turtle画叶子

Excel和CSV的处理方式大致相同,以下用csv举例。均为一些基础操作。

1.读取表格

import pandas as pd
new_data=pd.read_csv('/Users/ymhzb1994/Desktop/movie/movielens.csv')
#如果文件没有表头,还可以自己添加表头
new_data=pd.read_csv('/Users/ymhzb1994/Desk/data.csv',header=None,names = ['userId','movieId','rating'] )

2.查看数据

#查看前12行  head()的()中为空为默认前5行
new_data.head(12)
#查看表尾后几行
new_data.tail()

3.去除重复数据

new_data.drop_duplicates(subset=None,keep='first',inplace=True)

(1)subset:按照哪些列重复进行删除

     subset=None时,全部列重复则删除该行;

    若仅userid和movieId重复,就删除该行,则subset=['userid','movieId']

  (2)keep=None  删除所有重复数据;kepp=‘first’保留第一次出现的重复行;keep='last' 保留重复行出现的最后一次

(3)inplace=True 是在原来的datafram上去除;inplace=False是 产生一个副本

如:

data_distinct=new_data.drop_duplicates(subset=None,keep='first',inplace=False)

4.选取其中几列作为新的datafram

data_select=new_data[['userid','movieId']]

5.存成新的表

data_select.to_csv('/user/my/newdata.csv')

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值