第一部分:网络爬虫(基础)http://www.ibm.com/developerworks/cn/java/j-lo-dyse1/index.html
第二部分:网页预处理(核心)http://www.ibm.com/developerworks/cn/java/j-lo-dyse2/index.html
第三部分:查询服务(用户交互接口)http://www.ibm.com/developerworks/cn/java/j-lo-dyse3/index.html
搜索引擎整体结构