
毕业设计
绝地反击T
世界那么大,我想去看看。
展开
-
转:Nutch学习笔记--抓取过程简析
在上篇学习笔记中http://www.cnblogs.com/huligong1234/p/3464371.html 主要记录Nutch安装及简单运行的过程。笔记中 通过配置抓取地址http://blog.tianya.cn 并执行抓取命令 nohup ./bin/nutch crawl urls -dir data -threads 100 -depth 3 &进行了抓取。本次笔转载 2015-10-05 09:37:37 · 1282 阅读 · 0 评论 -
执行./nutch 命令后出现的nutch脚本用法解读
Usage: nutch COMMAND where COMMAND is one of: inject inject new urls into the database :注入新的url到数据库中hostinject creates or updates an existing host table from a text file :从一个文本文件中创建原创 2015-09-25 23:56:53 · 874 阅读 · 0 评论 -
转:Nutch-2.2.1脚本分析
为了对Nutch进行定制化,需要看懂Nutch的源码。 版本:2.2.1 最新版本 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~· ?123我们知道执行nutch时,会敲入./bin/nutch通过查看nutch的内容,我们知道这是一个shell脚本 ?转载 2015-09-25 23:46:23 · 751 阅读 · 0 评论 -
转:Cygwin下VI命令使用
在安装了cgywin之后,在里面会经常用到VI命令,在进行VLC编译时会用到VI的创建文件、修改文件等命令,如果你嫌麻烦,则可以在windows下直接对文件进行操作,如果想学下VI使用,下面的教程非常好。从一开始我也不习惯在cygwin下用VI,要修改个东西麻烦死了,后来了解了VI命令之后,慢慢就习惯了。【Vi编辑器的基本使用方法】转摘自 http://linux.chinaunix.转载 2015-09-25 23:43:43 · 1659 阅读 · 0 评论 -
转:cygwin简单应用及Nutch之Crawler工作流程
cygwin简单应用:cygwin home 目录:ls / -- 根目录ls /cygdrive -- 查看本地操作系统的盘符,如c盘、d盘pwd -- 当前位置路径/home/zf -- 对应目录在 \cygwin\home\zf,cygwin的安转载 2015-09-25 22:47:09 · 812 阅读 · 0 评论 -
转:网页爬取页面去重策略
网上搜集到的网页去重策略:1.通过MD5生成电子指纹来判断页面是否改变2.nutch去重策略:nutch中digest是对采集的每一个网页内容的32位哈希值,如果两个网页内容完全一样,它们的digest值肯定会一样,但哪怕其中之一多或少一个空格,它们的digest值就会不一样。所以,我认为,用digest做id是一个非常不错的选择。 如果nutch在两次不同的时间抓某个网页,例如转载 2015-09-25 22:42:11 · 3157 阅读 · 0 评论 -
转载:通过Java API编程实现Nutch Crawler抓取数据存储到MySQL数据库
Nutch Crawler抓取数据并存储到MySQLApache Nutch是在Java平台上开发的开源网络爬虫工具。按照Nutch官方网站给出的向导,通过使用Nutch命令,可以比较容易地抓取指定种子网站的数据。不过,若是要通过它提供的Java API,以编程方式抓取数据,并存储到指定的数据存储,如MySQL,则有一些技巧或者说秘诀需要注意。经过这几天抽空进行的试验,并查询了相关资料,完转载 2015-09-22 11:19:16 · 2655 阅读 · 0 评论 -
http请求获取到的网页源码是字节数组还是字符串?
http请求获取到的网页源码是字节数组,并不是字符串。只有识别了网页所用的编码,例如utf8,将字节数组根据编码的规则,进行解码,才可以获得网页源码的字符串。编码是将字符串转换为字节数组的过程,解码是将字节数组转换成字符串的过程。原创 2015-08-15 14:49:43 · 1957 阅读 · 0 评论 -
ANT介绍及ANT系统环境变量的配置
Apache Ant,是一个基于JAVA的自动化脚本引擎,脚本格式为XML。除了做JAVA编译相关任务外,ANT还可以通过插件实现很多应用的调用。默认情况下,脚本文件名为build.xml简单说来可以这么理解,如果你用记事本写JAVA程序,然后在cmd里输入javac命令编译它,但是有一天你发现每次手动输入太麻烦而且都是重复劳动,于是你下决心改变这种状况,然后学会了把javac命令写到一个原创 2015-08-14 23:06:25 · 7841 阅读 · 0 评论 -
转:使用Nutch和Solr抓取并索引网页
Nutch和Solr是两个由Apache成员创建的实用工具,你可以使用Nutch抓取网页,使用Solr索引你得到的数据。除了索引各类网站,这些工具还有很多其他功能,本文将不涉及这些,而是一篇针对如何使用Nutch抓取网页并使用Solr索引并搜索你抓取的数据的新手指南。本文将不会讨论它们如何工作的大量细节,而会告诉你如何运行一个爬虫和建立索引,我将假设你已经搭建好了tomcat服转载 2015-08-11 17:27:49 · 2383 阅读 · 0 评论 -
搜索引擎整体结构图以及描述
搜索引擎整体结构图:爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地,然后网页分析器抽取网页中的主题内容交给分词器进行分词,得到的结果用索引器建立正排和倒排索引,这样就得到了索引数据库,用户查询时,在通过分词器切割输入的查询词组并通过检索器在索引数据库中进行查询,得到的结果返回给用户。无论搜索引擎的规模大小,其主要结构都是由这几部分构成的,并没有大的差别,转载 2015-08-02 16:40:02 · 3415 阅读 · 0 评论 -
全文检索的基本原理之Lucene原理篇
一、总论 根据 http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数转载 2015-07-28 12:03:29 · 656 阅读 · 0 评论 -
全文检索的基本原理之Lucene原理篇
一、总论 根据 http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数转载 2015-07-28 12:01:40 · 657 阅读 · 0 评论 -
转:搜索引擎如何抓取互联网页面
先说说搜索引擎的原理吧。搜索引擎是把互联网上的网页内容存在自己的服务器上,当用户搜索某个词的时候,搜索引擎就会在自己的服务器上找相关的内容,这样就是说,只有保存在搜索引擎服务器上的网页才会被搜索到。哪些网页才能被保存到搜索引擎的服务器上呢?只有搜索引擎的网页抓取程序抓到的网页才会保存到搜索引擎的服务器上,这个网页抓取程序就是搜索引擎的蜘蛛.整个过程分为爬行和抓取。 一、 蜘蛛 搜索引擎转载 2015-07-19 21:14:01 · 3648 阅读 · 0 评论 -
转:nutch相干框架安装使用最佳指南
转:http://user.qzone.qq.com/281032878/blog/1342675154#!app=2&via=QZ.HashRefresh&pos=1362131478Chinese installing and using instruction - The best guidance in installing and using Nutch in China超清原转载 2015-07-19 17:16:45 · 774 阅读 · 0 评论 -
转:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在ElasticS转载 2015-07-16 12:15:27 · 954 阅读 · 0 评论