记一个python scrapy爬取script标签中某个var变量的值

本文介绍了一个使用Python Scrapy框架的爬虫项目实例,详细展示了如何从CCTV新闻网站抓取动态请求数据,通过解析JSON,转换XML,并最终提取所需内容的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

app移动端没有后台数据,没办法自己写呗,凑合着用,日子凑合着过,慢慢开始爬虫了

这是一个 python scrapy项目,具体关于scrapy的知识自己扩展
首先来一张自己稍稍总结的导图:
在这里插入图片描述

代码不做过多解释

功能:获取动态申请数据的url

class HomeNewsSpidersSpider(scrapy.Spider):
    name = 'home_news_spiders'
    allowed_domains = ['news.cctv.com']
    start_urls = ['http://news.cctv.com/']

    def parse(self, response):
        # 解析json,获取某个变量var的值
        json_str = response.xpath('//*[@id="SUBD1563517622685109"]/script[2]/text()').extract_first()

        # js文本转换成xml
        src_text = js2xml.parse(json_str, encoding='utf-8', debug=False)
        src_tree = js2xml.pretty_print(src_text)

        # 转换xml成html
        etree.HTML(src_tree)

        # xpath解析数据
        selector = Selector(text=src_tree)
        content = selector.xpath("/html/body/program/var[2]/string/text()").extract_first()

        print('content=', content)
       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值