目录
方法一:直接使用pandas的.read_html方法读取表格:
介绍
假期进行一些爬虫的小练习,其中第一个设计到了网页表格的爬取。
用request请求得到数据之后直接xpath或者bs4进行解析就可以。
步骤
观察网页内容:
查看一下组成,发现数据在一个table里面,表格头就是thead,内容在tbody里面。
方法一:直接使用pandas的.read_html方法读取表格:
def pd_read_html(url):
df=pd.read_html(io=url)
print(df)
直接能够得到dataframe格式的数据,处理之后可以用