
爬虫填坑
桃伊
这个作者很懒,什么都没留下…
展开
-
eclipse maven新建maven报错project read error
今天在新建一个maven项目时pom.xml文件出现project read error报错,从网上搜索得到解决方案如下: 原文百度经验连接https://jingyan.baidu.com/article/b2c186c82e5b56c46ef6ff0f.html操作步骤: 1,打开电脑cmd操作界面,在cmd界面找到打开出错项目的文件夹,比如我的项目文件夹在D:\Java\eclips...翻译 2018-08-24 11:03:07 · 9517 阅读 · 4 评论 -
Scrapy——ItemLoader空值报错问题
ItemLoader空值报错问题1. 问题描述1) 目标网站:https://news.cnblogs.com/2) 问题背景:在抓取文章的tags时,有些文章有这个信息,有些文章没有这个信息。scrapy-spider在解析的时候使用itemloader机制解析填充数据。但是当遇到页面没有这个属性的文章时,解析为空,itemloader默认不填充,数据对象为None。在向数据库保存数据时...原创 2019-08-24 19:16:06 · 950 阅读 · 0 评论 -
Scrapy——ItemLoader
ItemLoader1. ItemLoader在spider中的使用——解析作用from scrapy.loader import ItemLoaderitem_loader = ItemLoader(item, response)item_loader.add_css()item_loader.add_xpath()item_loader.add_value()以上三个add函...原创 2019-08-24 19:00:38 · 277 阅读 · 0 评论 -
python os库path相关操作
python os库path相关操作参考:python之os模块_file_:当前文件路径参考文章:Python之 _name_ ,_file_ , _doc_ 变量测试:print(_file_)输出:D:/Python/PycharmProjects/ScrapyNewsBlog/ScrapyNewsBlog/test/test.pyos.path.dirname():...原创 2019-08-24 11:56:01 · 146 阅读 · 0 评论 -
使用Scrapy自带ImagePipeline下载图片
使用Scrapy自带ImagePipeline下载图片示例代码# 启用scrapy自带的图片下载pipelineITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline': 1,}IMAGES_URLS_FIELD = "front_image_url" # 设置item中作为图片下载链接的item字段project...原创 2019-08-24 11:39:49 · 443 阅读 · 0 评论 -
Scrpay之Pipeline同步/异步方式保存数据库
Scrpay之Pipeline同步方式保存数据库示例代码class MysqlPipeline(object): #采用同步的机制写入mysql def __init__(self): self.conn = MySQLdb.connect('192.168.0.106', 'root', 'root', 'article_spider', charset="...原创 2019-08-24 11:14:12 · 412 阅读 · 0 评论 -
Scrapy之自定义Pipeline输出json文件
自定义Pipeline输出json文件代码class JsonWithEncodingPipeline(object): #自定义json文件的导出 def __init__(self): self.file = codecs.open('article.json', 'w', encoding="utf-8") def process...原创 2019-08-24 10:27:14 · 1163 阅读 · 0 评论 -
python时间字符串转化datatime对象
时间字符串转化datatime对象1. 测试代码def test_datatime(): time = "2019+07+30 10:22:22" test_date = "" try: test_date = datetime.datetime.strptime(time, "%Y+%m+%d %H:%M:%S").date() except ...原创 2019-08-24 10:08:51 · 1741 阅读 · 0 评论 -
python中正则表达式基本应用
python中正则表达式基本应用基本应用import re match_re = re.match(".*?(\d+).*", str_value)if match_re: data = match_re.group(1)在线正则表达式测试在线正则表达式测试网页re模块re.match(pattern,string, flags=0)1)简述:从第一个字符开始搜索,如果...原创 2019-08-24 09:58:07 · 817 阅读 · 0 评论 -
python将url进行md5哈希编码压缩
python将url进行md5哈希编码压缩应用背景1. 示例代码测试代码测试结果分析应用背景在写爬虫url去重的时候,可以直接将url保存为字符串到本地文件或数据库,去重的时候将其读入程序内存集合中,利用集合的元素唯一特性进行去重。但是直接按照字符串进行去重,程序的内存占用会很严重。所以一般会将url通过哈希算法压缩,进而保存,然后去重的时候对压缩后的编码进行对比去重。压缩后的url都是统一的...原创 2019-08-24 09:19:07 · 2050 阅读 · 0 评论 -
python3:request+BeautifuleSoup抓取房天下
request+BeautifuleSoup抓取房天下开始之前为什么选择这个网站目标数据爬虫文件存储的文件tool.py逻辑思路开始之前这篇代码的目标网站是房天下,涉及到的核心库包含requests、BeautifulSoup等。抓取到的文件存储在本地的csv文件中。抓去了网站全国每一个城市对应的新房、二手房、租房下的房屋信息。为什么选择这个网站网站的反爬虫机制没有那么严格。网上抓取这...原创 2019-03-03 16:33:20 · 1024 阅读 · 1 评论 -
Python爬虫之url去重方案
url去重方案1.去重方案将url保存到数据库中,检查时在数据库中查找。效率太低,频繁的切换内外存。将url保存到程序内存set集合中,查询速度快,但是占用内存太大。与第二种方法类似,只是进一步改进之后,将url通过哈希编码压缩在保存在程序内存set集合中,相较于第二种方法直接保存,可以大大压缩存储空间。scrapy采用此方法。这个方法将url通过哈希算法进一步压缩空间...原创 2019-08-24 21:04:01 · 1814 阅读 · 0 评论