前言:
咸鱼王最近之前一段时间考电商分析师证了还参加了一次新媒体运营实训,希望为简历加加分,保佑自己能过,很久没来更新,在这里给大家道个歉。好了,屁话不多说,进入正题。我的第一篇博客https://blog.youkuaiyun.com/Eli_change/article/details/107437468针对完全小白又没时间学习和需要快速实现数据可视化的人,第一篇博客读取数据的方式是使用open()函数但是却需要对读取的数据进行多次清理,这使得代码重复率提高了,应此,学习数据分析,我们需要学会专门的数据处理方式,不然一旦数据类型变多了,open()函数读取数据就显得蠢笨蠢笨的了。
目录
前言:
pandas读取数据CSV文件:本次数据以某宝百草味店铺数据为例子。
pandas读取excel文件:
#### 当数据中文较多时
pandas读取数据CSV文件:本次数据以某宝百草味店铺数据为例子。
以下是数据展示截图:
# 导包
import pandas as pd
# 读取数据
# 默认将第一行作为列索引,使用header参数设置(指定某一行位置索引,None:使用默认索引)
# df = pd.read_csv('文件名',header=3) # 将第三行作为列索引
df = pd.read_csv('百草味副本.csv')
print(df)
正常情况下:读取完数据以后,直接输出就可以看到读取到的数据是一个DataFrame的格式 ,如果你不明白这是什么数据类型可以参考我的博客https://blog.youkuaiyun.com/Eli_change/article/details/109633180,但是也会有一些同志出现报错。
这个时候你只需要在读取的时候,添加参数engine='python'就可以了。
df = pd.read_csv('百草味副本.csv',engine='python')
pandas读取excel文件:
excel文件一般含有多页数据,因此在读取文件时和csv文件又存在一定的差异性。以下除了第一页数据与csv文件相同,也新增加了日期页和二级类目分类页
|
|
# 导包
import pandas as pd
# 读取数据
# excel一般含有多页数,而csv文件只含有一页数据
# 读取某个表时,使用sheet_name指定
# day= pd.read_excel('文件名',sheet_name='页数名称')
# 默认读取第一页
df = pd.read_excel('百草味副本.xlsx')
print(df)
运行结果:pycharm显示问题,但是已经读取成功
读取其他页:
# 读取日期
day = pd.read_excel('百草味副本.xlsx',sheet_name='日期')
print(day)
# 读取二级类目
two = pd.read_excel('百草味副本.xlsx',sheet_name='二级类目')
print(two)
运行结果:
#### 当数据中文较多时
可以在读取的时候增加enconding='GBK'的属性。快去操作吧!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
当数据量较大时,可以使用shap函数来查看数据结构
print(df.shape)
这次的文章就更新到这里,希望对你有帮助,如果喜欢的话可以点个赞!!!感谢你的支持和关注。