Scrapy实例1_英语点津_scrapy 新闻英语-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_48758529/article/details/108759150

这个实例是获取(英语点津)里每一条文章里的信息http://language.chinadaily.com.cn/thelatest保存为csv文件

分析网页

我们要先分析网页结构,获取每条文章的链接地址,发现这个三个的链接地址是一样,所以获取哪个标签下的链接地址都可以,每一页有15条数据,共有293页
在这里插入图片描述

在这里插入图片描述
然后点击一条链接里去看需要爬取的信息,我们获取文章标题、发布者和时间、文本内容3个信息

创建scrapy项目

打开pycharm的Terminal,输入scrapy startproject english(scrapy startproject 项目名)
在这里插入图片描述
进入刚刚创建的Scrapy项目目录下 cd english (cd 项目名)

在这里插入图片描述
输入scrapy可以查看操作指令

创建好了项目之后我们可以看到一个项目文件
在这里插入图片描述

修改settings.py文件

找到ROBOTSTXT_OBEY改为Flase
在这里插入图片描述
找到ITEM_PIPELINES打开注释

编写spider

创建爬虫文件scrapy genspider english_sp chinadaily.com.cn(scrapy genspider 文件名域名),爬虫文件会保存在spiders目录下
在这里插入图片描述

编写爬虫代码

打开刚刚创建的english_sp.py文件
修改start_urls

# 我们需要获取293页数据
start_urls = ['http://language.chinadaily.com.cn/thelatest/page_{}.html'.format(page) for page in range(1, 294)]

编写parse方法

	def parse(self, response):
	   # 使用xpath获取每个新闻的url地址
	   urls = response.xpath('//a[@class="gy_box_img"]/@href')  
	   for url in urls:   # 遍历获取到的url
	       data_url = url.get().replace('//', 'http://')
	       # 把获取的url地址去发送新的请求,响应数据给到parse_text方法去解析
	       yield scrapy.Request(url=data_url, callback=self.parse_text)

编写parse_text方法

    def parse_text(self, response):
        """
        数据解析
        :param response: 网页响应内容
        """
        # 标题
        title = response.xpath('//div[@class="main_title"]/h1/span[@class="main_title1"]/text()').get()
        # 作者和时间
        are = response.xpath('normalize-space(//div[@class="main_title"]/p[@class="main_title3"]/text())').get()
        # 获取指定div标签下的所有p标签的文本信息, 注意返回的是每个p标签信息的列表
        text = response.xpath('//div[@class="mian_txt"]/p//text()').getall()
        # 文章内容
        text_all = ''
        # 将列表中所有的内容合并,并去除\xa0
        for strs in text_all:
            if strs != '\xa0':
                text += strs
        item = EnglishItem(title=title, are=are, text=text)
        yield item

english_sp.py完整代码如下

import scrapy
from ..items import EnglishItem


class EnglishSpSpider(scrapy.Spider):
    name = 'english_sp'
    allowed_domains = ['chinadaily.com.cn']  # 限制域名
    # 我们需要获取293页数据
    start_urls = ['http://language.chinadaily.com.cn/thelatest/page_{}.html'.format(page) for page in range(1, 294)]

    def parse(self, response):
        # 使用xpath获取每个新闻的url地址
        urls = response.xpath('//a[@class="gy_box_img"]/@href')
        for url in urls:  # 遍历获取到的url
            data_url = url.get().replace('//', 'http://')
            # 把获取的url地址去发送新的请求,响应数据给到parse_text方法去解析
            yield scrapy.Request(url=data_url, callback=self.parse_text)

    def parse_text(self, response):
        """
        数据解析
        :param response: 网页响应内容
        """
        # 标题
        title = response.xpath('//div[@class="main_title"]/h1/span[@class="main_title1"]/text()').get()
        # 作者和时间
        are = response.xpath('normalize-space(//div[@class="main_title"]/p[@class="main_title3"]/text())').get()
        # 获取指定div标签下的所有p标签的文本信息, 注意返回的是每个p标签信息的列表
        text = response.xpath('//div[@class="mian_txt"]/p//text()').getall()
        # 文章内容
        text_all = ''
        # 将列表中所有的内容合并,并去除\xa0
        for strs in text_all:
            if strs != '\xa0':
                text += strs
        item = EnglishItem(title=title, are=are, text=text)
        yield item

编写items.py

import scrapy


class EnglishItem(scrapy.Item):  # 数据管道
    title = scrapy.Field()
    are = scrapy.Field()
    text = scrapy.Field()

编写pipelines.py

import csv


class EnglishPipeline:
    def __init__(self):
        self.f = open('data.csv', mode='a', encoding='utf-8', newline='')
        self.csv_write = csv.DictWriter(self.f, fieldnames=['title', 'are', 'text'])
        self.csv_write.writeheader()

    def process_item(self, item, spider):
        self.csv_write.writerow(dict(item))
        return item

    def close_file(self):
        self.f.close()