爬虫
文章平均质量分 61
爬虫
caiji2312
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BeautifulSoup解析页面得到的信息不全
soup = BeautifulSoup(page_text,'lxml') 信息丢失 soup = BeautifulSoup(page_text,'html.parser') 信息完整 原因是解析器的兼容性问题,此时可以更换解析器进行尝试原创 2021-12-03 22:12:13 · 3546 阅读 · 0 评论 -
爬虫简单学习
爬虫: 模拟浏览器自动抓取网页信息的脚本 主要用到浏览器自带的抓包功能,request模块,beaufulsoup模块和re模块 一.伪装 1.进行伪装的原因 import requests url='http://www.baidu.com' header={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94原创 2021-11-13 22:57:51 · 2247 阅读 · 0 评论
分享