python通过css解析html文件,基于css属性的网页html字符串片段解析

该博客探讨了在Python 2.7.5环境下,使用Scrapy爬虫从CSS属性中提取网页URL的问题。作者提到能够获取到第一个URL,但遇到困难获取完整URL列表或处理多个URL。他们在尝试joinurl和parse函数时遇到错误。博客内容寻求一种更简单的方法来解决这个问题,特别是在CentOS 6.5系统上。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我正在尝试根据CSS属性在网页上提取特定的URL。我可以拉第一个,但我有困难获得完整的网址添加,或获得一个以上的网址。在

我尝试过使用joinurl或parse时遇到很多问题。joinurl不断出现全局错误。在

有没有更简单的方法??在

我使用的是Centos 6.5和Python 2.7.5

下面的代码将提供第一个URL,但不提供http://www...inlineimport scrapy

class PdgaSpider(scrapy.Spider):

name = "pdgavideos" # Name of the Spider, required value

start_urls = ["http://www.pdga.com/videos/"]

# Entry point for the spiders

def parse(self, response):

SET_SELECTOR = 'tbody'

for brickset in response.css(SET_SELECTOR):

HTML_SELECTOR = 'td.views-field.views-field-title a ::attr(href)'

yield {

'http://www.pdga.com': brickset.css(HTML_SELECTOR).extract()[0]

}

电流输出

http://www.pdga.com

/视频/2017-glass-bould-open-fpo-rd-2-pt-2-pierce-fajkus-leatherman-c-allen-sexton-leatherman

预期输出

完整的url列表,没有任何分隔符

我没有足够的声誉点数来发布几个示例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值