
python-spider-basic
THISFOREVERYONE
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网易新闻 scrapy +selenium
利用scrapy框架进行网站内容的爬取,这个时候不可避免地就会遇到动态加载的数据。这个时候就需要与selenium结合起来,用selenium进行模拟浏览器登陆,获得动态加载的数据。具体地说是在下载中间件的那一步将相应数据进行处理,得到动态加载的数据,再将这个数据返回个spider。这一篇博客可能对这个原理部分讲的更清楚scrapy中selenium的应用 获取网易新闻这个项目原教程链接是让我们能够将scrapy与selenium结合起来使用。我觉得最重要的是要理解下面这张图 如果说能基本理解的话,也.原创 2020-10-31 23:13:18 · 345 阅读 · 0 评论 -
python 爬虫学习记录
这段时间一直断断续续的学习python爬虫,主要是想后面如果自己想要用一些数据的话有能力去获取并处理。在这里做一个记录。 常见问题记录 当学习到处理中间件请求的时候终端一直报错更换不同的IP有不同的错。一种是Connection was refused by other side: 10061: 由于目标计算机积极拒绝,无法连接。第二种是TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 网上查看的解决方法很多是说防.原创 2020-10-31 17:16:04 · 293 阅读 · 0 评论 -
Python 中scrapy的安装
以前安装某个包都是直接pip install package,但当我直接pip install scrapy时,却出现了报错,原因是scrapy依赖python中其它的关键包,必不可少的就是lxml和twisted,scrapy安装的官方文档说明 pip install lxml 没有出现问题 pip install twisted 报错 pip安装的原理就是去第三方管理网站,也就是我们说的源,去找对应的包,然后下载相应的代码和依赖,安装在python安装目录\Lib\site-packages\原创 2020-10-17 20:06:40 · 268 阅读 · 1 评论 -
selenium模拟登录12306
利用selenium模拟登录12306,但是12306的登陆要想模拟还挺难的,需要先进行坐标识别,识别出来之后还要在进行滑块拖动验证识别,这里做一下记录. 这里的坐标识别是用的超级鹰,有时也会坐标识别出错,最后的一步滑动验证码识别现在做不了,不论是模拟滑动还是手动滑动都有问题。源代码如下(其中超级鹰的识别代码就不贴了) from selenium import webdriver from time import sleep from PIL import Image from selenium.web.原创 2020-10-15 13:24:26 · 611 阅读 · 4 评论 -
多线线程梨视频下载
要用多线程的方法下载梨视频,但是由于一直梨视频视频的数据对应的url一直拿不到,开始的时候还直接访问了某个视频的ajax返回的url,是个没用的,后来基本上完全参考了一篇博客,才踉踉跄跄的把这个小视频下载完成。 转载博客地址,在这里很感谢此博客的博主,去拿一个视频的对应的json解析出来然后构造出url这个自己目前都不知道是怎么得到的。 from lxml import etree import requests import os import random from multiprocessing..转载 2020-10-13 21:22:50 · 270 阅读 · 0 评论 -
利用百度ocr简单模拟登录一高校网站过程记录
利用百度ocr中的api验证识别验证码中的文字进行模拟登录,此过程中验证码识别正确,但是模拟登录网页还是没有模拟登录上,显示验证码错误。原创 2020-10-09 20:14:59 · 333 阅读 · 0 评论 -
批量下载简历模板
利用python 中的requests库批量下载一个网站中的简历模板原创 2020-10-06 22:10:40 · 358 阅读 · 0 评论 -
kfc 商家地址获取
简单获取商家地址(kfc) 学习源址 基本的查找url,请求方式我也是在上面的链接中学到的,在此就不赘述了,只是重点分享和记录一下自己遇到的一些bug 代码 import requests url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.原创 2020-09-30 00:06:15 · 741 阅读 · 0 评论