
Search Engine
wnzz95391511
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HtmlParser提取网页中的纯文本信息
HTMLParser 一个解析web页面的开源类库。 准备学习下搜索方面的技术,就学习了些网络爬虫的知识。最近一直在一个点上困惑,如何提取一个网页上的纯文本信息。要使用正则表达式的话呢,需要考虑很多因素,而且标签也太多,不是很方便,效果也不好。就准备利用开源包,最后选择了HtmlParser。 在网上搜索如何利用HtmlParser提取页面信息。提取的结...2009-04-12 16:34:45 · 175 阅读 · 0 评论 -
我想学习的搜索之路
接到任务以后,五一前的这几天应该一直都很忙,自己想学习搜索这一块的计划,也不得不推迟一些了。先给自己列一个计划吧。[list][*]先用lucene+paoding制作个简单的搜索demo[*]学习pagerank,实现个基本的pagerank集成到搜索demo中[*]学习hadoop,了解集群搭配,mapreduce、google file system、Hadoop...2009-04-20 21:39:58 · 135 阅读 · 0 评论