爬虫
创造只有你的世界
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬取拉勾网招聘信息笔记
问题 1.爬取时进行循环翻页时找不到结束条件 解决方案:当点击下一页有效时 按钮的类为’pager_next ’ 而当点击下一页按钮无效时,该按钮的类变成了’pager_next pager_next_disabled’ 所以在获取按钮后获取该按钮的属性,如果该按钮的类为’pager_next’则执行click,若类不为’pager_next’ 则break循环。 ...原创 2021-03-30 17:17:57 · 418 阅读 · 1 评论 -
python爬取豆瓣top250电影知识点记录
爬虫需要使用的python库分别: 1. urllib.request 2. bs4中的BeautifulSoup 3. re 4. xlwt Part1: urllib.request主要用于模拟浏览器获取网页中的html head={ # 模拟浏览器头部信息,向豆瓣服务器发送消息,防止网页识别出爬虫 报错418 "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like原创 2021-03-08 22:18:52 · 554 阅读 · 1 评论
分享