Python爬虫(三):scrapy提取数据之CSS提取器

本文介绍了如何使用Scrapy的CSS提取器从网页中抓取数据,包括提取网页信息、标签内容,如title、p、div内的文本和URL。还提供了从http://lab.scrapyd.cn获取名言、作者和标签的实践案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

scrapy提取数据的三种方法:CSS、XPATH、RE。

这里学习一下怎么使用CSS提取器提取有用的数据。参考自http://www.scrapyd.cn/doc/

这里需要有一定的CSS基本,下面附上学习CSS的链接http://www.runoob.com/css/css-tutorial.html

1、爬取网页信息

scrapy shell http://lab.scrapyd.cn/page/1/

2、标签内容的提取

<title>Scrapy 中文网</title>

<div class="post-content" itemprop="articleBody">
    <p>看官,此页面只为爬虫练习使用,都是残卷,若喜欢可以去找点高清版!</p>
    <p><img src="http://lab.scrapyd.cn/usr/uploads/2018/02/3875934880.jpg" alt="1.jpg" title="1.jpg"></p>
    <span style="font-family: Arial, Verdana, sans-serif;"></span>
    <p><img src="http://lab.scrapyd.cn/usr/upl
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值