五.scrapy CSVFeedSpider

Scrapy爬虫解析CSV数据

最新推荐文章于 2024-04-24 20:32:56 发布

原创最新推荐文章于 2024-04-24 20:32:56 发布 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

python scrapy爬虫专栏收录该内容

11 篇文章

订阅专栏

本文介绍如何使用Scrapy框架中的CSVFeedSpider类来抓取CSV格式的数据，并通过示例代码展示了如何定义爬虫类及解析CSV文件的方法。

一.何时用到

数据格式为csv时，抓取数据需要用到如http://yum.iqianyue.com/weisuenbook/pyspd/part12/mydata.csv

二.如何玩

打开网站是csv下载文件，下载后为

用记事本打开后

三.上代码

scrapy startproject csvspider

cd csvspider

scrapy genspider -t csvfeed mycsvspider iqianyue.com

# -*- coding: utf-8 -*-
from scrapy.spiders import CSVFeedSpider


class MycsvspiderSpider(CSVFeedSpider):
    name = 'mycsvspider'
    allowed_domains = ['iqianyue.com']
    start_urls = ['http://yum.iqianyue.com/weisuenbook/pyspd/part12/mydata.csv']
    headers = ['name', 'sex', 'addr', 'email']
    delimiter = ','

    # Do any adaptations you need here
    #def adapt_response(self, response):
    #    return response
    def parse_row(self, response, row):
        i = {}
        i['name'] = row['name']
        i['sex'] = row['sex']
        print u'名字是：'+ i['name']
        print u'性别是：'+ i['sex']
        print '--'*8
        return i