scrapy爬取csdn搜索文章,并将文章链接等信息保存到csv文件

本文介绍了如何使用Python的Scrapy框架,分析优快云的搜索接口,获取以‘java’为关键字的文章链接及其他相关信息,并将数据导出到CSV文件。首先分析接口,然后创建Scrapy项目,编写爬虫代码,实现数据抓取和处理,最后配置爬虫的设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先分析网页接口,在搜索框搜索关键字java后,在network中查看接口,可以找到这个接口
在这里插入图片描述
接口中的返回值即是我们需要的数据,我们就不用去分析网页html代码了。

在这里插入图片描述
创建项目

scrapy startproject  csdnSpider

创建爬虫

scrapy genspider search_spider "csdb.net"

爬虫代码

import json

import scrapy
from csdnSpider.items import CsdnspiderItem
import re


class searchSpider(scrapy.Spider):
    name = 'search_spider'
    # allowed_domains = ['youkuaiyun.com']
    # start_urls = ['http://youkuaiyun.com/']
    rec=re.compile(r'<em>|</em>')

    url='https://so.youkuaiyun.com/api/v2/search?q=python&t=all&p={}&s=0&tm=0&lv=-1&ft=0&l=&u=&platform=pc'

    def start_requests(self):
        #开启多个线程 爬取多页
        for i in range(1,5,1):
            url=self.url
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值