1 互联网信息抓取
1.1概述
互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。
爬虫可以被分为两类: 一类叫作“通用爬虫”; 另一类叫作“聚焦爬虫”。
目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫搜索引擎。
1.2Nutch爬虫





1.3案例:招聘网站信息抓取


1.4案例:舆情信息汇聚


2 文本分词
2.1文本分词



2.2MMSEG分词工具


2.3斯坦福NLTK分词工具

3 倒排索引
3.1倒排索引原理




3.2倒排索引实现

4 网页排序算法

4.2 TD-IDF算法

4.3 BM25算法


4.4PageRank算法

5 历史信息检索
5.1系统架构

5.2数据抓取与整合

5.3查询引擎

5.4运行效果


以上是目前互联网大数据处理常用方法
本文介绍互联网大数据处理的关键技术,包括网络爬虫抓取信息、文本分词处理、倒排索引建立及网页排序算法等。通过具体案例展示了招聘网站信息抓取和舆情信息汇聚的过程。
3814

被折叠的 条评论
为什么被折叠?



