
爬虫
玖河网络
这个作者很懒,什么都没留下…
展开
-
Scrapy学习之items设计
【settings模块】ITEM_PIPELINES ={} (传入的数据要干什么)IMAGES_URLS_FIELD = '' (去哪里获取url地址)project_dir = os.path.dirname(os.path.abspath(__file__))IMAGES_STORE = "" (将文件存储到哪里去)# 'scrapy.pipelines.images.ImagesPip...原创 2018-06-04 13:25:59 · 2045 阅读 · 0 评论 -
python3的url编码和解码,自定义gbk、utf-8
因为很多时候要涉及到url的编码和解码工作,所以自己制作了一个类,废话不多说 码上见!# coding:utf-8import urllib.parseclass Urlchuli(): """Url处理类,需要传入两个实参:Urlchuli('实参','编码类型'),默认utf-8 url编码方法:url_bm() url解码方法:url_jm()""" ...原创 2018-06-07 12:47:44 · 4975 阅读 · 1 评论 -
python3 区间日期生成列表形式的类方法
import datetimeclass Quriqi(): """取区间日期模块,主要传入两个参数: Quriqi('20180601','20180608').suanriqi() 将会返回list类型 此类用的模块为datetime """ def __init__(self,qishi,jiezhi): self.start...原创 2018-06-08 16:26:25 · 1548 阅读 · 0 评论 -
Scrapy入门模版编写
scrapy startproject ArticleSpider #创建名称为ArticleSpider的项目文件【创建爬虫项目】通过以上命令来创建爬虫项目。命令行创建爬虫模板(需要在项目文件夹内执行,避免模板创建到其他地方)scrapy genspider jobbole blog.jobbole.com(正确的创建模板路径应该是:E:\boo\zidongpa\ArticleSpider\执...原创 2018-06-03 18:34:50 · 1211 阅读 · 0 评论 -
python3 URL拼接代码
感谢网友的分享,先自己保存起来;因为网上的是基于 python2.x版本的,所以自己修改了一下能在3.x用了。将不完整的url拼接成为完整的url;比如在网页中经常遇到相对路径的 url1 = http://www.bachejian.comur2 = /abc/efc/123.html需要将他们拼接成为http://www.bachejian.com/abc/efc/123.html 就用以下代...转载 2018-06-10 23:31:10 · 10312 阅读 · 0 评论