
数据存储
优木
这个作者很懒,什么都没留下…
展开
-
Python Scrapy 修改默认图片管道,更改缩略图文件名
在学习使用Scrapy图片管道的时候,书上没有给出修改下载的缩略图文件名称的方法。自己研究了下,搞定了,记下来。要爬的是起点中文网:items.py 中要爬的有这么几项:import scrapyclass DownloadimageItem(scrapy.Item): # 小说名称 title = scrapy.Field() # 小说作者 ...原创 2019-12-25 21:47:23 · 517 阅读 · 0 评论 -
python Scrapy 编写自定义管道,将数据保存到 json 文件中
本文是对《scrapy网络爬虫实战》一书中,第5.2节内容的重写,由于伯乐在线网站代码有较大改动,原书中代码已经失效。以下示例演示了抓取https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0中...原创 2019-12-22 15:08:15 · 552 阅读 · 0 评论 -
multiprocessing 使用 Process+Queue 的多进程爬虫示例
《Python网络爬虫:从入门到实践》书中7.3.1节讲到,使用multiprocessing库的第一种方法,是Process+Queue 的多进程爬虫,还给出一个例子,发现有重大逻辑bug,经1天时间研究,将正确的代码公布出来,方便广大爱好者使用、参考。以下代码同时统计了各个子进程爬取的页面数量,已经在Pycharm 5.0.3上测试通过,欢迎大家评论留言,有问题我看到后会及时回复,谢谢。...原创 2019-11-19 13:19:29 · 338 阅读 · 0 评论 -
csv格式文件
csv格式文件经常用在Python爬虫程序中存储文件,原因一是这种类型的文件既能用Excel打开,又能用记事本打开,而txt文件经常遇到变量分隔的问题;原因二是csv文件和txt文件占用的存储空间差不多,只是用英文逗号做行分隔,用换行符做列分隔。不过不同的os使用的换行符不一样,Linux使用的是\n,windows使用的是\r\n,mac用的是\r用Excel打开时的样子如下:用...原创 2019-11-09 14:56:16 · 517 阅读 · 0 评论