应用Firebug来监视网页元素

本文介绍如何利用Firefox的Firebug工具构建XPath表达式,为Scrapy提供有效的网页数据抓取策略。强调在使用Firefox进行DOM探查时,需禁用JavaScript,并避免使用完整的XPath路径和特定于页面的元素,如 tbody。通过Firebug的Inspect Element功能,开发者可以轻松地查看每个页面元素的HTML代码,构建精准的XPath表达式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        前文叙述的是采用Webkit作为scrapy的Downloader。在构建XPath时,我们可以通过Firebug来监视网页元素。

参考这篇文章:http://doc.scrapy.org/en/latest/topics/firefox.html#topics-firefox-addons

Using Firefox for scraping

Since Firefox add-ons operate on a live browser DOM, what you’ll actually see when inspecting the page source is not the original HTML, but a modified one after applying some browser clean up and executing Javascript code. Firefox, in particular, is known for adding  <tbody>  elements to tables. Scrapy, on the other hand, does not modify the original page HTML, so you won’t be able to extract any data if you use  <tbody  in your XPath expressions.

Therefore, you should keep in mind the following things when working with Firefox and XPath:

  • Disable Firefox Javascript while inspecting the DOM looking for XPaths to be used in Scrapy
  • Never use full XPath paths, use relative and clever ones based on attributes (such as idclass,width, etc) or any identifying features like contains(@href, 'image').
  • Never include <tbody> elements in your XPath expressions unless you really know what you’re doing

简单翻译:

在使用Scrapy时要注意以下几点:

  • 当探寻DOM找出XPath时,Disable Firefox的Javascript
  • 不要使用完整的XPath路径,而采用相关的基于属性的特征如:id、class等
  • 不要在XPath中使用<tbody>元素

Firebug

Firebug  is a widely known tool among web developers and it’s also very useful for scraping. In particular, its  Inspect Element  feature comes very handy when you need to construct the XPaths for extracting data because it allows you to view the HTML code of each page element while moving your mouse over it.

使用Firebug的监视网页(inspect elements)特性对构建XPath很有帮助。







资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 在当今的软件开发领域,自动化构建与发布是提升开发效率和项目质量的关键环节。Jenkins Pipeline作为一种强大的自动化工具,能够有效助力Java项目的快速构建、测试及部署。本文将详细介绍如何利用Jenkins Pipeline实现Java项目的自动化构建与发布。 Jenkins Pipeline简介 Jenkins Pipeline是运行在Jenkins上的一套工作流框架,它将原本分散在单个或多个节点上独立运行的任务串联起来,实现复杂流程的编排与可视化。它是Jenkins 2.X的核心特性之一,推动了Jenkins从持续集成(CI)向持续交付(CD)及DevOps的转变。 创建Pipeline项目 要使用Jenkins Pipeline自动化构建发布Java项目,首先需要创建Pipeline项目。具体步骤如下: 登录Jenkins,点击“新建项”,选择“Pipeline”。 输入项目名称和描述,点击“确定”。 在Pipeline脚本中定义项目字典、发版脚本和预发布脚本。 编写Pipeline脚本 Pipeline脚本是Jenkins Pipeline的核心,用于定义自动化构建和发布的流程。以下是一个简单的Pipeline脚本示例: 在上述脚本中,定义了四个阶段:Checkout、Build、Push package和Deploy/Rollback。每个阶段都可以根据实际需求进行配置和调整。 通过Jenkins Pipeline自动化构建发布Java项目,可以显著提升开发效率和项目质量。借助Pipeline,我们能够轻松实现自动化构建、测试和部署,从而提高项目的整体质量和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值