Python练习 scrapy 爬取汽车之家文章

本文通过Python的Scrapy框架,详细介绍了如何爬取汽车之家网站上的文章数据,涵盖了爬虫的实现过程和技术要点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

autohome.py  #spider文件

# -*- coding: utf-8 -*-
import scrapy
from Autohome.items import AutohomeItem

class AutohomeSpider(scrapy.Spider):
    name = 'autohome'
    allowed_domains = ['https://www.autohome.com.cn/all/']
    start_urls = ['https://www.autohome.com.cn/all/']

    def parse(self, response):
#返回该表达式对应的所有selector list列表
        tit_list = response.xpath("//div[@class='article-wrapper']/ul/li/a")
        for tit in tit_list:
            item = AutohomeItem()
            #extract()序列化为unicode字符串
            title = tit.xpath("./h3").extract()
            url = tit.xpath("./@href").extract()
            jianjie = tit.xpath("./p").extract()

            item['url'] = url[0]
            item['jianjie'] = jianjie[0]
            item['title'] = title[0]
            #返回提取到的每个item数据,传给管道处理,同时还会回来继续处理下一个数据
            yield item


#网址 //div[@class='article-wrapper']/ul/li/a/@href
#标题 //div[@class='article-wrapper']/ul/li/a/h3
#简
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值