panda 专业来说是,基于Numpy的一个强大的分析结构化数据的工具集,可以快速实现数据清洗功能。而对我来说,panda同时也是一个强大的,自动化办公工具集,同时支持cvs、xlsx等多种格式文件的信息处理。用它处理表格数据是非常高效的!
提示:本文主要表述的是Python的Panda文档处理方法和使用技巧
文章目录
一、安装与环境
- 通过cmd命令行的方式进行安装
pip install Pandas
- 安装读取xlsx文件的依赖库
pip install xlrd==1.2.0
如果报这个错误就是就是没有这个依赖库,且值得注意的是,要指定版本,不然最新版本,不支持xlsx文件
ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.
- 测试一下代码,没报错就算成功安装了
import pandas as pd
pd.read_excel("你本地的xlsx文件路径")
二、读取和展示数据
导入panda库,导入成功后,就可以通过简化后的pd名称调用,panda库的各种方法了
import pandas as pd
1. 读取不同格式的数据
- 读取csv文件
import pandas as pd
pd.read_csv("file.csv")
- 读取xlsx文件和xls文件
import pandas as pd
pd.read_excel("file.xlsx")
从这两个例子中可以看出,读取支持格式的文件,方法都会以read_.*
开头,所有想读取文件可以先输入read_
查看提示选项。
2. 只将部分内容载入内存
- 有时候会遇到一种情况,数据文件太大,一次性加载入内存,需要好久,不利我们开发观察,这时我们只想读取文件的前10行,后边数据不载入内存了
pd.read_csv("file.csv", nrows=10) # 只将文件前10行加载入内存
三、Panda内容展示
这里主要介绍的,将内容展示到控制台,以及做一些处理,去除表格内容干扰!
1. 控制台内容展示
- 查看全部数据
import pandas as pd
data=pd.read_csv("file.csv")
print(data)
- 查看前10行数据(这里和上方说的不一样,这里是将文件数据全部载入内容处理后,在读取前10行)