Hpricot支持像
jQurey一样的Css Selector
下面的代码抓取百度新歌Top100的歌名及歌手名单:
require
"
open-uri
"
require
"
hpricot
"
doc
=
open
(
"
http://list.mp3.baidu.com/list/newhits.html?id=1#top1
"
) {
|
f
|
Hpricot(f) }
doc
.
search(
"
.border
"
)
.
each
do
|
table
|
table
.
search(
"
a
"
)
.
each
do
|
link
|
print
link
.
inner_html
end
puts
end
速度快得不得了,这得益于
Ragel生成器^_^
现在Hpricot除了Win32/Src版外,还提供了JRuby版的。
下面的代码抓取百度新歌Top100的歌名及歌手名单:
require
"
open-uri
"
require
"
hpricot
"
doc
=
open
(
"
http://list.mp3.baidu.com/list/newhits.html?id=1#top1
"
) {
|
f
|
Hpricot(f) }
doc
.
search(
"
.border
"
)
.
each
do
|
table
|
table
.
search(
"
a
"
)
.
each
do
|
link
|
print
link
.
inner_html
end
puts
end
现在Hpricot除了Win32/Src版外,还提供了JRuby版的。
本文介绍使用Hpricot库配合Ruby语言实现类似于jQuery的CSS选择器功能,快速抓取网页上的信息,以百度新歌Top100榜单为例,展示了如何高效地抓取歌名和歌手名单。

被折叠的 条评论
为什么被折叠?



