Scrapy教程demo

最新推荐文章于 2024-09-29 16:00:45 发布

原创最新推荐文章于 2024-09-29 16:00:45 发布 · 428 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

python 专栏收录该内容

193 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是一篇关于Scrapy框架的教程，详细介绍了如何创建一个爬虫项目，定义爬取目标，编写爬虫代码，以及在pipelines中处理数据保存，特别强调了处理编码问题时`ensure_ascii=False`参数的重要性。

1.创建一个爬虫项目

#创建蜘蛛
#scrapy startproject tutorial

2.定义自己要爬去的数据（在items.py中定义）

import scrapy
class ManscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    href=scrapy.Field()
    content=scrapy.Field()
    pass

3.编写爬虫

import scrapy
import json
from  ..items import ManscrapyItem
class MaospiderSpider(scrapy.Spider):
    name = 'maospider'
    allowed_domains = ['cntour.cn']
    start_urls = ['http://www.cntour.cn/news/list.aspx?tid=51&page=1']
    # //*[@id="main"]/div/div[2]/div[1]/div[1]/ul/li/text()
    def parse(self, response):
         names=response.css('.newsList>ul>li')
         for name in names:
             item=ManscrapyItem()
             href=name.xpath('a/@href').ext

了解本专栏