ruby库 - nokogiri

最新推荐文章于 2023-11-09 11:33:06 发布

原创最新推荐文章于 2023-11-09 11:33:06 发布 · 197 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Ruby #rubygems #Google #CSS #IDEA

Ruby on Rails 专栏收录该内容

42 篇文章

订阅专栏

本文介绍了一个新的Ruby库Nokogiri，用于解析HTML/XML文档。通过使用Nokogiri，开发者可以轻松地从网页中抓取数据。本文提供了安装指南及示例代码，演示如何提取Google搜索结果中的链接。

介绍:
[b]一个新的Ruby解析HTML/XML的ruby库[/b]

安装:


sudo apt-get install libxml2-dev libxslt1-dev
sudo gem install nokogiri

视频:
[url]http://railscasts.com/episodes/190-screen-scraping-with-nokogiri[/url]

源码地址:
[url]http://github.com/tenderlove/nokogiri/[/url]

demo(nokogiri_google.rb):


require 'rubygems'
require 'nokogiri'
require 'open-uri'

url = 'http://www.google.cn/search?q=tenderlove'
doc = Nokogiri::HTML(open(url))

doc.css('h3.r a.l').each do |link|
  puts link.content
end
puts '--------------------------------------------------'

doc.xpath('//h3/a[@class="l"]').each do |link|
  puts link.content
end
puts '--------------------------------------------------'

doc.search('h3.r a.l', '//h3/a[@class="l"]').each do |link|
  puts link.content
end