
爬虫
文章平均质量分 78
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
我的身前一尺是我的世界
三十功名尘与土,八千里路云和月。
展开
-
Scrapy之一个item包含多级页面的处理方案
在实际开发过程中,我们所需要的数据往往需要通过多个页面的数据汇总得到,通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看,实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及手游详情为学习案例来解决这个问题。原创 2025-01-24 00:11:36 · 371 阅读 · 0 评论 -
初步搭建并使用Scrapy框架
在pipelines.py文件中配置open_spider和close_spider方法,分别表示在爬虫程序执行前执行的方法和在爬虫程序执行之后执行的方法。: 刷新页面,在浏览器检查中查看第一个和最后一个,发现图片链接的初始接收属性并不是src,而是data-original,src是加载以后才代替data-original的。:修改src获取的方法,并再次运行项目。:来到pipelines.py文件,其中process_item方法中的item就是我们刚才在爬虫程序配置的boot对象。原创 2025-01-22 14:57:40 · 1343 阅读 · 0 评论