这种数据类型是xlsx的数据格式,爬取此种类型的数据的时候,我们直接f12看到的返回数据是乱码的,如图,

要想获得这种数据,有两种方式,一是保存文件到xlsx文件里面,二是通过BytesIO可以直接得到
第一种:爬取的时候,requests里面添加参数stream=True,获得流式数据。得到的数据可以直接写入xlsx文件,打开文件可以看见
第二种:获取的数据通过BytesIO转换一下,再通过pandas打印或者保存起来,直接使用,例子如下:
import requests
import io
import pandas
json_data = ""
response = requests.post("url", json=json_data, stream=True)
res = pandas.read_excel(io.BytesIO(response.content))
文章讲述了在处理xlsx数据格式时,如果通过网络爬虫获取数据会遇到乱码问题。提供了两种解决方案:一是利用requests的stream=True参数下载文件到本地;二是将响应内容转换为BytesIO,通过pandas读取和处理。示例代码展示了如何用pandas从BytesIO对象中读取Excel数据。
7947

被折叠的 条评论
为什么被折叠?



