1.创建一个爬虫项目
#创建蜘蛛 #scrapy startproject tutorial
2.定义自己要爬去的数据(在items.py中定义)
import scrapy
class ManscrapyItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
href=scrapy.Field()
content=scrapy.Field()
pass
3.编写爬虫
import scrapy
import json
from ..items import ManscrapyItem
class MaospiderSpider(scrapy.Spider):
name = 'maospider'
allowed_domains = ['cntour.cn']
start_urls = ['http://www.cntour.cn/news/list.aspx?tid=51&page=1']
# //*[@id="main"]/div/div[2]/div[1]/div[1]/ul/li/text()
def parse(self, response):
names=response.css('.newsList>ul>li')
for name in names:
item=ManscrapyItem()
href=name.xpath('a/@href').ext
本文是一篇关于Scrapy框架的教程,详细介绍了如何创建一个爬虫项目,定义爬取目标,编写爬虫代码,以及在pipelines中处理数据保存,特别强调了处理编码问题时`ensure_ascii=False`参数的重要性。
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



