目录
前言
Pandas是一个开源的Python库,提供了高性能、易于使用的数据结构和数据分析工具。Pandas的主要数据结构是Series(一维数据)和DataFrame(二维数据),它们可以处理各种类型的数据,如数值、字符串、时间序列等。Pandas库是基于NumPy的数组计算,提供了丰富的功能和高效的性能,使得它成为了数据分析中最常用的Python库之一
一、Pandas的安装:
第一个方法通过PyPI的pip工具安装,在系统界面打开cmd命令窗口,在命令提示符窗口输入安装命令如下: pip insatall Pandas。这是最简单的一个方法。
第二个可以通过PyCharm开发环境安装,选择File/Settings命令,打开Settings窗口,选择Project Interperter选项,点击添加按钮,然后打开Available Packages窗口,在搜索文本框中输入需要添加的模块名称 :Pandas 在列表中选择安装即可。
Numpy是Python进行科学计算,尤其是数据分析时,所用到的一个基础库。Numpy库的基础:Ndarray。Numpy数组的维数和元素
数量由数组的型(shape)来决定,数组的型由N个正整数组成的元组来指定,元组的每个元素对应每一维的大小。数组的维统称为轴(axes),轴的数量被称作秩(rank)。
Pandas是一个专门用于数据分析的开源Python库 。pandas的核心为两大数据结构,分别是Series(一维)和DataFrance(多维)。pandas有各种灵活的函数可以进行统计、排序相关性和协方差的计算、处理NAN数据、登机索引和分级。pandas还有一组I/O API工具,可进行数据读写。
二、如何利用Pandas读取文件
现已得到这样的一个excel表,存放的是招聘C语言开发工程师的岗位信息,表格中的数据均已清洗过,现在想读取表格中的数据到python,要怎么实现呢?我们在这里以获取数据中出现的所有省份为例,统计出现的各省份名称及个数,代码很简单,如下: