python通过css解析html文件,基于css属性的网页html字符串片段解析

最新推荐文章于 2024-07-02 13:03:59 发布

汪国

最新推荐文章于 2024-07-02 13:03:59 发布

阅读量258

点赞数

文章标签： python通过css解析html文件

该博客探讨了在Python 2.7.5环境下，使用Scrapy爬虫从CSS属性中提取网页URL的问题。作者提到能够获取到第一个URL，但遇到困难获取完整URL列表或处理多个URL。他们在尝试joinurl和parse函数时遇到错误。博客内容寻求一种更简单的方法来解决这个问题，特别是在CentOS 6.5系统上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我正在尝试根据CSS属性在网页上提取特定的URL。我可以拉第一个，但我有困难获得完整的网址添加，或获得一个以上的网址。在

我尝试过使用joinurl或parse时遇到很多问题。joinurl不断出现全局错误。在

有没有更简单的方法？？在

我使用的是Centos 6.5和Python 2.7.5

下面的代码将提供第一个URL，但不提供http://www...inlineimport scrapy

class PdgaSpider(scrapy.Spider):

name = "pdgavideos" # Name of the Spider, required value

start_urls = ["http://www.pdga.com/videos/"]

# Entry point for the spiders

def parse(self, response):

SET_SELECTOR = 'tbody'

for brickset in response.css(SET_SELECTOR):

HTML_SELECTOR = 'td.views-field.views-field-title a ::attr(href)'

yield {

'http://www.pdga.com': brickset.css(HTML_SELECTOR).extract()[0]

}

电流输出

http://www.pdga.com

/视频/2017-glass-bould-open-fpo-rd-2-pt-2-pierce-fajkus-leatherman-c-allen-sexton-leatherman

预期输出

完整的url列表，没有任何分隔符

我没有足够的声誉点数来发布几个示例

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。