
爬虫
文章平均质量分 72
DI O
这个作者很懒,什么都没留下…
展开
-
爬虫--Scrapy框架以及具体使用
Scrapy框架框架的模块和流程scrapy的三个内置对象爬虫框架项目框架的模块和流程spider:爬虫模块,指定起始页的url地址,以及去构造请求对象和提取数据Engine: 引擎模块,负责每个模块之间的数据的传递(Request,Response,Item)Scheduler: 调度器,存储Request对象的,里面维护一个列表,数据取出来之后,列表中这个数据就不存在了.[1,2,3] 取出来,这个时候列表中就剩下[2,3]-Downloader:下载器,负责发送请求获取响应,Scrap原创 2021-07-09 02:24:37 · 571 阅读 · 1 评论 -
爬虫-百度贴吧爬取图片(requests)
requests模块使用:1 导包 import requests2 准备url地址(请求头: 1 User-Agent 2 Cookie 3 Referer)3 发送请求获取响应 requests.get(url)4 提取数据5 保存"""1 先进入到某一个贴吧 第一页(对一个贴吧的url地址发送请求获取响应)2 进入到贴吧页面中 要去获取数据 - 贴子的标题 - 帖子的详情页url地址3 在对帖子 详情页url地址发送请求 获取到想详情页的响应4 在对详情页的.原创 2021-07-07 21:40:30 · 389 阅读 · 3 评论 -
爬虫-提取数据-selenium工具的基本使用
selenium自动化测试工具提取数据selenium工具的基本使用selenium实例化driver对象的属性和方法实例化对象driver定位标签元素获取标签对象的方法标签对象提取文本内容和属性值总结selenium工具的基本使用使用步骤:从selenium中导入webdriver创建对应的webdriver对象调用driver对象的get方法传入要请求的url地址,去请求对应的url地址调用driver中提供的定位标签和提取数据的方法,定位标签操作或者提取数据退出driver。# 1原创 2021-07-04 16:21:05 · 283 阅读 · 2 评论 -
爬虫-Xpath-数据提取
Xpath数据提取xpath基本介绍和使用xpath中常用的获取节点的表达式xpath中常用的获取特定节点的表达式XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。xpath基本介绍和使用XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。使用chrome插件选择标签时候,选中时,选中的标签会添加属性clas原创 2021-07-02 02:04:01 · 3404 阅读 · 1 评论 -
爬虫-request-模块请求参数
request请求参数headers 请求头params 请求参数proxies 代理ipcookie web状态信息1 headers 中携带cookie2 cookies参数3 使用sessionverify 安全验证timeout 网络超时参数retrying 重试次数post/get请求 (params参数)headers 请求头伪装的更像是一个正常的浏览器在请求服务.headers字典是从浏览器群中的请求头信息中复制过来的.response = requests.get(url, hea原创 2021-06-30 20:18:49 · 755 阅读 · 1 评论 -
Scrapy中的crawlspider爬虫
crawlspider介绍创建模板具体参数和解释重点在rules中:介绍Scrapy框架中分两类爬虫Spider类和CrawlSpider类。crawlspider是Spider的派生类(一个子类),Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合。创建模板创建 crawlspider 项目scrapy genspider -t craw原创 2021-07-10 20:42:52 · 311 阅读 · 1 评论 -
爬虫-有道翻译(requests)
import requestsimport time, random, hashlibfrom pprint import pprintfrom jsonpath import jsonpathclass YouDaoSpider(object): def __init__(self,word): # 准备url地址 self.url = "https://fanyi.youdao.com/translate_o?smartresult=dict&原创 2021-07-07 21:11:19 · 373 阅读 · 0 评论 -
爬虫-selenium的其他的使用方法
selenium自动化测试工具selenium标签页的切换switch_to切换frame标签selenium对cookie的处理selenium标签页的切换当selenium控制浏览器打开多个标签页.使用selenium控制浏览器在不同的标签页中进行切换# 1. 获取当前所有的标签页的句柄构成的列表current_windows = driver.window_handles# 2. 根据标签页句柄列表索引下标进行切换driver.switch_to.window(current_win原创 2021-07-04 16:27:56 · 244 阅读 · 2 评论