【爬虫入门】python爬取b站热门视频排行榜榜单数据
通过bs的find_all将html解析找到大体位置后,通过正则库re的findall方法进行更精确匹配获取信息。这里请求头信息包含的内容越详细越不易识破,信息详情可以借助chrom的F12中的network看。urllib.read(),返回一个长字符串,包含url所对应html的所有内容。在解析网页结构时,因解析部分代码重复挺多了,就封装了函数addToData。可以将数据保存为一个表格文件,也可以使用sqlite数据库进行保存。模拟发送请求可以使用urilib或requests,这里使用的是。
原创
2023-04-17 18:01:56 ·
1764 阅读 ·
0 评论