Ruby 搜索、索引与文档处理技术深度解析
1. 搜索技术整合
在搜索技术领域,将搜索与其他技术进行整合是一项重要的工作。以使用查询 “ruby” 进行雅虎网络搜索为例,运行程序后会得到如下结果:
- Ruby Programming Language => http://www.ruby-lang.org/en
- Ruby (programming language) - Wikipedia, the free encyclopedia => http://en.wikipedia.org/wiki/Ruby_programming_language
- Ruby Central => http://www.rubycentral.com/
- Ruby Annotation => http://www.w3.org/TR/ruby/
- Ruby Programming Language => http://ruby-lang.org/
接下来,我们将采用一种更为直接的搜索方法——谷歌 “屏幕抓取” 方法。由于谷歌没有提供对程序员友好的 API,我们不得不从常规 HTML 页面中抓取谷歌的数据。但需要注意的是,大规模自动化执行此过程违反谷歌的条款和条件,所以要谨慎操作。不过,这种技术同样适用于其他网站和搜索引擎。
要开始这个过程,首先需要安装 scRUBYt! 库。scRUBYt!(http://scrubyt.org/)是 Peter Szinek 开发的一个 Ruby 库,它能轻松实现网页数据的自动化处理。可以通过以下命令安装:
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



