Ruby的XML格式数据解析库Nokogiri的使用进阶例子解析

Nokogiri解析XML和HTML文档代码示例

最新推荐文章于 2025-12-12 22:02:59 发布

原创最新推荐文章于 2025-12-12 22:02:59 发布 · 811 阅读

21 ·

CC 4.0 BY-SA版权

CC BY-NC-SA 3.0

文章标签：

#ruby #xml #开发语言

ruby 专栏收录该内容

119 篇文章

订阅专栏

在这里插入图片描述

代码示例：

Nokogiri 的 XML 格式数据解析库进阶详细例子

安装 Nokogiri
首先，确保你的环境中已经安装了 Nokogiri。可以通过以下命令进行安装：
sh复制
gem install nokogiri
如果你使用 Bundler，可以在 Gemfile 中添加以下内容：
ruby复制
gem ‘nokogiri’
然后运行 bundle install。
解析 XML 文档
假设我们有一个 XML 文件 books.xml，内容如下：
xml复制

Book One Author A 2020-01-01

Book Two Author B 2021-02-01 我们可以使用 Nokogiri 来解析这个 XML 文件，并提取每本书的标题、作者和出版日期。 ruby复制 require 'nokogiri' require 'open-uri'

加载 XML 文档

doc = Nokogiri::XML(File.open(‘books.xml’))

使用 XPath 提取所有书籍的信息

books = doc.xpath(‘//book’)

books.each do |book|
title = book.at_xpath(‘title’).text
author = book.at_xpath(‘author’).text
published_date = book.at_xpath(‘published_date’).text
puts “Title: #{title}, Author: #{author}, Published Date: #{published_date}”
end
这段代码首先加载了 XML 文件，然后使用 XPath 表达式 //book 选中所有的元素。对于每个元素，再分别提取其、和 <published_date> 子元素的文本内容。<br/> 3. 使用 CSS 选择器<br/> Nokogiri 也支持使用 CSS 选择器来查询文档。假设我们有以下 HTML 文档：<br/> HTML复制

Main Title

Article Title

Article content...

Another Article Title

Another article content...

我们可以使用 CSS 选择器来提取所有文章的标题和内容。 ruby复制 require 'nokogiri' require 'open-uri'

加载 HTML 文档

doc = Nokogiri::HTML(File.open(‘articles.html’))

使用 CSS 选择器提取所有文章的标题和内容

articles = doc.css(‘.article’)

articles.each do |article|
title = article.at_css(‘h2’).text
content = article.at_css(‘p’).text
puts “Title: #{title}, Content: #{content}”
end
这段代码首先加载了 HTML 文件，然后使用 CSS 选择器 .article 选中所有的

元素，这些元素的类名为 article。对于每个

元素，再分别提取其

和
子元素的文本内容。
4. 性能优化
对于大型文档，Nokogiri 提供了 SAX 和 Reader 解析方式，这些方式可以显著提高性能，因为它们不需要一次性加载整个文档到内存中。
SAX 解析方式
SAX（Simple API for XML）是一种基于事件驱动的解析方式。当解析器读取文档时，它会触发一系列事件，比如开始文档、开始标签、结束标签等。这种方式非常适合处理大型文件。
ruby复制
require ‘nokogiri’

class BookHandler < Nokogiri::XML::SAX::Document
def start_element(name, attrs = [])
if name == ‘book’
@book = { title: nil, author: nil, published_date: nil }
end
end

def characters(string)
if @book
case @current_element
when ‘title’
@book[:title] = string.strip
when ‘author’
@book[:author] = string.strip
when ‘published_date’
@book[:published_date] = string.strip
end
end
end

def end_element(name)
if name == ‘book’
puts “Title: #{@book[:title]}, Author: #{@book[:author]}, Published Date: #{@book[:published_date]}”
@book = nil
elsif name == ‘title’ || name == ‘author’ || name == ‘published_date’
@current_element = nil
end
end
end

parser = Nokogiri::XML::SAX::Parser.new(BookHandler.new)
parser.parse_file(‘books.xml’)
这段代码定义了一个 BookHandler 类，继承自 Nokogiri::XML::SAX::Document。在这个类中，我们重写了 start_element、characters 和 end_element 方法，分别处理开始标签、字符内容和结束标签的事件。
Reader 解析方式
Reader 解析方式允许开发者逐行读取文档，这对于只需要处理文档中特定部分的情况非常有用。
ruby复制
require ‘nokogiri’

reader = Nokogiri::XML::Reader(File.open(‘books.xml’))

reader.each do |node|
if node.name == ‘book’ && node.node_type == Nokogiri::XML::Reader::TYPE_ELEMENT
title = node.at_xpath(‘title’).text
author = node.at_xpath(‘author’).text
published_date = node.at_xpath(‘published_date’).text
puts “Title: #{title}, Author: #{author}, Published Date: #{published_date}”
end
end
这段代码使用 Nokogiri::XML::Reader 逐行读取 XML 文件，并在遇到元素时提取其子元素的文本内容。
5. 常见问题与错误处理
在使用 Nokogiri 的过程中，可能会遇到一些常见的问题和错误。以下是一些常见的问题及其解决方案：
问题 1：无法解析文档
如果遇到无法解析文档的问题，首先要检查文档是否符合 HTML 或 XML 的标准格式。有时候，文档中的语法错误会导致解析失败。可以使用在线验证工具帮助识别这些问题。
问题 2：选择器未找到元素
当使用 XPath 或 CSS 选择器时，如果未能找到预期的元素，首先要确认选择器是否正确。此外，检查文档结构也很重要，因为有时候文档的实际结构与预期可能存在差异。
问题 3：性能问题
对于大型文档，Nokogiri 可能会出现性能瓶颈。这时可以考虑使用 SAX 或 Reader 解析方式，这两种方式更适合处理大数据量的文档，因为它们不需要一次性加载整个文档到内存中。
通过解决这些问题，我们不仅能够提高代码的健壮性，还能提升自己的编程技能。Nokogiri 作为一款强大的工具，为我们打开了通向数据世界的大门，让我们能够更加自信地面对挑战。
希望这些例子和技巧能帮助你更好地使用 Nokogiri 进行 XML 和 HTML 文档的解析。如果你有任何问题或需要进一步的帮助，请随时联系。
喜欢本文，请点赞、收藏和关注！
如能打赏、那更好了!