爬虫
文章平均质量分 68
andux
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用selenium自动从知网cnki.net下载pdf文献
通过for循环,获取a标签的属性href链接,然后再使用driver.get()进入到文章页面,暂停5秒钟等文章页面加载完成后,点击pdf按钮,自动下载文章的pdf文件。要想自动下载知网期刊论文,先要在chrome浏览器里登录好帐号密码。注意自己的网速,设置好暂停的秒数后,再往下执行。跳转到搜索结果页面后,需要暂停个5秒,等页面加载完,才能使用xpath查找到相应的dom元素,因为列表都是使用异步加载到相应的模块里面的。就可以循环该a标签的dom元素列表,遍历到所有的文章链接了。原创 2023-10-24 11:02:12 · 647 阅读 · 0 评论 -
使用selenium爬取飞卢小说网排行榜的小说标题
使用selenium集成化爬虫工具,它的xpath跟scrapy等有一定区别,scrapy等需要使用get()或者extract()等函数来获取dom节点,而selenium就不需要了。飞卢小说网的排行榜中,每个小说块的class都是一样的,这样获取整页的div块的xpath就很好写了。把爬取代码放到try里面,是为了出错时程序不会中断,继续执行下去。一个点(.)是指当前子目录中,没有点的话,就是直接从根目录开始了。原创 2023-10-24 10:08:25 · 529 阅读 · 0 评论 -
爬虫通过验证码框架selenium的简单使用
Selenium() 是支持 web 浏览器自动化的一系列工具和库的综合项目。它提供了扩展来模拟用户与浏览器的交互,用于扩展浏览器分配的分发服务器, 以及用于实现的基础结构, 该 规范 允许您为所有主要 Web 浏览器编写可互换的代码。爬虫要通过验证码,需要使用selenium这样的框架,模拟人的操作,来通过验证码,或者说是破解验证码。原创 2023-10-24 09:27:48 · 121 阅读 · 0 评论 -
python爬虫之cookies与session配置
要打开谷歌浏览器的保留日志功能,这样登录信息会继续保留在列表里,点开链接可以查看载荷里的数据,即用户名密码等相关登录信息。使用request.session()比cookies代码要简洁一点点。最后都获取到了登录后的页面信息。要从登陆页面获取相关数据,记得要用Chrome谷歌浏览器,其他浏览器可能布局有差别。原创 2023-10-20 16:23:11 · 838 阅读 · 0 评论 -
python爬虫之cookies设置
dict中文解释为字典,之前小编向大家介绍了dict函数以及它创建字典的过程(dict函数创建字典的过程)。在日常生活中,我们有了字典,在不认识的字的情况下,会输入内容发挥字典的作用。在python中,字典创建完了,要向字典添加元素,也才能发挥它的作用。获取需要登录的网页内容,需要登录,同站网页之间通过cookies进行身份认证,就不需要每打开一个网页都需要的登录了。以上就是向字典里添加元素的两种的方法,添加元素是我们python中使用字典必须要操作的内容,要掌握哟~方法一:直接添加,给定键值对。原创 2023-10-20 09:20:04 · 1113 阅读 · 0 评论 -
京东的数据不好爬啊……京东安全(list.jd.com)
实时监测:京东反爬虫机制能够对系统日志进行实时监测,并及时发现和处理异常行为。-验证码影响用户体验:由于验证码的存在,用户在访问京东平台时需要进行额外的身份验证,这会影响用户的使用体验。-人工智能支持:京东反爬虫机制还结合了人工智能技术,在对恶意爬虫进行识别和屏蔽方面更加准确和高效。-误封IP地址:在某些情况下,京东反爬虫机制可能会误封一些正常的IP地址,从而影响用户的正常访问。前面的代码验证还好,都出来了,到后面估计爬的数据多了,一下子就并屏蔽了。爬取京东的数据,一会儿就被屏蔽了,抓取不了数据了。原创 2023-10-19 14:58:23 · 2073 阅读 · 0 评论 -
scrapy爬虫爬取17k小说网全部章节信息(MongoDB,分页)
跟着教程爬取京东的时候,一会爬出来,一会儿爬不出来,京东反扒挺厉害啊。跟着教程走,还是出不来结果,看着自己的代码没错啊。使用正则表达式获取当前链接中的翻页参数,就是变化的数值,让它+1,形成新的链接。多练习,多看教程,原来代码是这个意思啊。刚开始,只会照着教程抄代码,囫囵吞枣,先有个大概的了解和熟悉,现在要慢慢深入理解代码的含义了。越来越发现,pipelines里面的代码,都成固定的了,几乎不用修改,可以拿之前的直接用。17k小说网分类中小说还是挺多的,为了方便查看结果,就缩小了小说书籍的范围。原创 2023-10-19 10:53:41 · 610 阅读 · 0 评论 -
scrapy爬取17k小说网分类列表中最新小说章节内容(RedisSpider,redis,mongodb,翻页)
redis可以用于分布式爬取,就是可以同时使用多个进程(多个终端)运行同一个应用,redis可以自己调度每个进程的任务列表,共同完成相关任务。settings.py文件里配置redis数据库连接,DOWNLOAD_DELAY = 1是间隔一秒再执行,网站没有反扒的时候,可以注释掉。这里需要注意,需要清空redis数据库,不然有数据它就不执行了,因为它认为已经执行过了。MongoDB数据库清空是为了看清楚数据变化。数据库实体类中的字段顺序,决定了最后存储到MongoDB数据库中的字段顺序。原创 2023-10-18 15:14:01 · 264 阅读 · 0 评论 -
scrapy爬虫17k小说网之翻页,代码越来越简洁了
函数start_requests负责改变初始化链接start_urls,也就是翻页链接。函数yield scrapy.Request负责回调解析子页面里面的内容,就是最新章节的标题。发现extract()等于getall(),get()等于extract()[0]。每页获取全部小说,并获取前3页最新章节的标题。爬取小说列表,并翻页,获取最新章节名称。原创 2023-10-18 09:02:44 · 654 阅读 · 0 评论 -
CrawlSpider爬取聚美优品之翻页(MongoDB)
,做这个就简单多了,视频教程里也很简单,毕竟是入门CrawlSpider的实战小demo。这个视频教程真的做的很贴心。选择雅诗兰黛这个品牌,而且需要在其他页面,才能选择下拉菜单,看把人家聚美优品折腾的,首页都不敢放下拉菜单了~~~~聚美优品上打不开兰蔻品牌的链接啊,显示404啊。是不是爬崩溃了😄……学无止境,学到后期,不仅仅是有手就行,要做到无手自行才行吧……列表页选择5个商品,选择循环3个列表页面。数据库实体类pipelines.py。废话不多说,我忒忙……是不是感觉有手就行了?自从学习了上个案例(原创 2023-10-17 11:24:10 · 129 阅读 · 1 评论 -
CrawlSpider爬虫之爬取17k小说网列表详情及章节并放在一起(CrawlSpider翻页、MongoDB)
在使用mongo进行业务处理中,有时需要对文档(document)中的某个数组节点进行操作,这是下面要提到的 p u l l , pull, pull,push,$set操作。到此这篇关于MongoDB对数组进行增删改查操作的文章就介绍到这了,更多相关MongoDB对数组增删改查内容请搜索脚本之家以前的文章//$表示匹配到的第一个为EX1002的对象修改掉//如果想匹配多个值,可修改为$[]rules = (# 书名列表,获取第一本书的详情页信息。原创 2023-10-17 09:24:07 · 1270 阅读 · 1 评论 -
全站爬取之CrawlSpider
CrawlSpider可以根据给定的规则自动爬取链接里的子页面的内容。创建一个新的CrawlSpider项目,跟创建其他scrapy的Spider项目命令一样:scrapy startproject scrapy_02 进入到spiders目录中:cd .\scrapy_02\scrapy_02\spiders\ 要爬取的页面是http://seller.cheshi.com/wuhan/:想要获取每个经销商的链接,并通过链接进入到子页面,从子页面里获取经原创 2023-10-12 15:25:48 · 211 阅读 · 0 评论 -
爬取豆瓣读书页爬虫之翻页、详细页(scrapy,MongoDB)
使用scrapy框架进行爬虫爬取页面内容,在settings里面可以把USER_AGENT设置好,在items里面把数据库实体类设置好,在middlewares里面把代理设置好,在pipelines里面把MongoDB数据库的写入操作写好,在app里把逻辑写好,就可以了,这样把功能分开写在对应的文件里,方便对代码进行管理。不能递归函数,需要使用回调,可以看出,p=1就是翻页的参数,如果不使用scrapy框架,那就让p+1来进行翻页,使用下一页的href是否为空来判断是不是最后一页。原创 2023-10-12 11:09:14 · 1592 阅读 · 0 评论 -
豆瓣电影爬虫练习之下滑惰性加载(延迟加载、懒加载、无限滚动、瀑布流)
爬虫如果要翻页,需要有page参数变化,有规律才好翻页继续爬下去,如果没有规律,就只能爬一次就结束了,所以爬虫要持续执行,需要找到数据加载的规律,也就是找到那个动态变化的参数,而且这个参数还是有规律的,比如每次加1,或者像豆瓣电影列表里,每次加20。爬豆瓣电影列表用MongoDB数据库进行保存数据,需要在MongoDB中创建一个数据库和表(collection)。其中参数start在变化,其他的参数都不变,这就有规律可循了。原创 2023-10-11 10:00:20 · 1026 阅读 · 0 评论 -
纵横中文网书库爬虫练习之翻页
/div代表任意位置的div标签,[@class="bookname"]是xpath语法,中括号中@符号后是div的属性,这里用div的标签class="bookname"定位到小说名称。xpath('//div[contains(@id,"ma") and contains(@id,"in")]')——选取id值包含ma和in的div节点。如果不加,则返回列表格式,就不能使用该方法了。xpath('//div[contains(text(),"ma")]')——选取文本中包含ma的节点。原创 2023-10-10 14:55:16 · 2172 阅读 · 1 评论
分享