爬虫
文章平均质量分 68
阡陌淡暖
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫基础与案例3
seleniumselenium可以实现功能爬虫。作用:可以实现浏览器自动化的操作。pip install selenium准备浏览器的驱动程序(网上下载)演示程序:from selenium import webdriverfrom time import sleep#1.创建一款浏览器对象bro = webdriver.Chrome(executable_path='chromedriver.exe')#2.指定一系列指定形式的行为动作bro.get('ht原创 2021-08-29 23:00:09 · 268 阅读 · 0 评论 -
爬虫基础与案例2
图片懒加载页面中的图片资源不是一次性全部请求到的,而是通过事件的监听结合着img标签的伪属性实现的懒加载机制伪属性:自己任意定义的一个没有意义的属性名称即可import requestsfrom lxml import etreeheaders = { #伪装的头信息 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.451原创 2021-08-29 18:35:25 · 320 阅读 · 0 评论 -
爬虫基础与案例1
爬虫爬虫:通过编写程序模拟浏览器上网,然后让其在互联网上抓取数据爬虫分类: 通用爬虫:爬取一整张页面数据进行爬取 功能爬虫:selenium 增量式:检测网站数据的更新情况 分布式: 编码流程: 1.指定url 2.发起请求 3.获取响应数据 4.持久化存储requests模块:作用:模拟浏览器发起请求编码流程: 1.指定url 2.发起请求 3.获取响应数据 4.持久化存储 scrapy框架爬取搜狗首页import requestsurl = 'ht原创 2021-08-29 12:49:35 · 2340 阅读 · 0 评论
分享