最近爬取了一个外国网站,爬取的内容要保存到excel内,但是保存的格式出了问题,正常是用过一个字段一个sheet,但是最后出结果时有三个字段被放放到一个字典内,成了一个sheet,本来4个sheet结果成了2个sheet。就想到用pandas来进行数据操作。
错误格式:
正确的格式:
思路:
先单独拿出需要改变的这一列,然后使用tolist()这个函数将其变成列表a,再重新定义一个新列表b。然后使用for循环列表a,将循环出来的i变成json格式,在逐一定义,最后将定义的字段以列表的格式赋给变量c,在使用append将c添加到列表b,然后将列表b定义为pandas的DataFrame格式,最后使用concat()函数,将原本excel的第一个sheet与b进行拼接。
附上代码:
import pandas as pd
import json
df=pd.read_excel('text.xlsx')#导入excel文件
a=df['url'].tolist()#变成列表
b=[]
for i in a:
i=i.json.loads(i)#变成json格式
url=i['url']
title=i['title']
design=i['designer']
c=[url,title,design]
b.append(c)
b=pd.DataFrame(b)
s=pd.concar([df['pic'],b],axis=1)
s