Hadoop学习之自己动手做搜索引擎【网络爬虫+倒排索引+中文分词】
一、使用技术
Http协议
正则表达式
队列模式
Lucenne中文分词
MapReduce
二、网络爬虫
项目目的
通过制定url爬取界面源码,通过正则表达式匹配出其中所需的资源(这里是爬取csdn博客url及博客名),将爬到的资源存入文件中便于制作成倒排索引。根据页面源码垂直爬取csdn网站中的所有博客资源(找到一个超链接就爬取该超链接中的内容)。
设计思想
建立一个队列对象,首先将传入
原创
2016-05-12 21:16:49 ·
7205 阅读 ·
5 评论