
爬虫
杨鑫newlfe
算法就是我的灵魂
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
布隆过滤器(Bloom Filter) -- SimpleBloomFilter源代码
//布隆过滤器(Bloom Filter)package url;import java.util.BitSet;public class SimpleBloomFilter{private static final int DEFAULT_SIZE = 2 private static final int[] seeds = new int[]{7, 11,原创 2014-11-09 17:11:03 · 1496 阅读 · 0 评论 -
按文档得分进行排序
//按文档得分进行排序//以下代码首先建立了2本书的Document对象,并且为其建立了索引。在搜索时,使用//Searcher的search(Query, Sort)接口//其中Sort对象取自其自带的一个静态的常量Sort.RELEVANCE,//该常量表示的排序法则按照文档的得分进行降序排列。package sort;import org.apache.luc原创 2014-11-18 21:34:03 · 1211 阅读 · 0 评论 -
网络爬虫中的LinQueue类源码
//在这个结构中保存的URL不能重复//能够快速地查找系统中URL.package url;import java.util.HashSet;import java.util.Set;public class LinkQueue {//已经访问的url集合private static Set visitedUrl = new HashSet();原创 2014-11-05 00:41:44 · 985 阅读 · 0 评论 -
HTTP常用状态码
用于表示服务器已成功处理了请求的状态代码。 200(成功) 服务器已成功处理了请求。通常,这表示服务器提供了请求的网页。 201(已创建) 请求成功且服务器已创建了新的资源。 202(已接受) 服务器已接受了请求,但尚未对其进行处理。 203(非授权信息) 服务器已成功处理了请求,但返回了可能来自另一来源的信息。原创 2014-11-03 23:15:29 · 994 阅读 · 0 评论 -
网络爬虫中的Queue源码
//队列,保存将要访问的URLpackage url;import java.util.LinkedList;public class Queue {//使用链表实现队列private LinkedList queue = new LinkedList();//入队列public void enQueue(Object t){queue.addL原创 2014-11-05 00:40:50 · 900 阅读 · 0 评论 -
Lucene的标准分析器
//Lucene的标准分析器package analyzer;import java.io.IOException;import java.io.Reader;import java.util.Set;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.anal原创 2014-11-20 22:41:49 · 1261 阅读 · 0 评论 -
网络爬虫DownLoadFile类
//在这个结构中保存的URL不能重复//能够快速地查找系统中URL.package url;import java.util.HashSet;import java.util.Set;public class LinkQueue {//已经访问的url集合private static Set visitedUrl = new HashSet();原创 2014-11-05 00:42:30 · 1123 阅读 · 0 评论 -
StandardFilter的next方法
//StandardFilter位于org.apache.lucene.analysis.standard包中package analyzer;import org.apache.lucene.analysis.Token;//这里显示的是StandardFilter的next方法public class StandardFilter {public final原创 2014-11-21 13:03:01 · 1253 阅读 · 0 评论 -
网络爬虫HtmlParserTool源码
//java中有一个非常实用的工具包HtmlParser.//他专门针对Html页面进行处理,不仅能提取URL,还能提取文本以及你想要的任何内容。package url;import java.util.HashSet;import java.util.Set;import javax.swing.text.html.parser.Parser;im原创 2014-11-05 23:28:09 · 1078 阅读 · 0 评论 -
Heritrix安装和配置
实话说我对于这东西是又爱又恨,整了我很久很久。都把电脑整的重装了,才好。对于爬虫来说自己试过nutch,这个也是第一次弄,还好,没有辜负我。 下面讲一下:首先需要注意的是两个东西,一个是需要下载两个包,很多人只下载了一个Heritrix-1.14.zip就以为可以了,然后找不到com文件夹,其实是缺少了一个一个包。需要这两个包才可以,heritrix-1.14.4-原创 2014-11-30 18:05:41 · 2180 阅读 · 0 评论 -
怎么打开heritrix.properties
对于这个问题自己很苦恼,自己试了很多办法,首先是把名字改成了heritrix.properties.txt结果打开后发现没有规律,都满满的排在一行,看不出想找的在哪个位置?既然你能搜索到这边文章,那么你肯定是会编程的,那么这就好办了,你可以把这个文件名字改成heritrix.properties.cpp或者heritrix.properties.java用编译器打开,这样打开就原创 2014-11-25 20:57:41 · 1820 阅读 · 0 评论 -
正则表达式的基本使用测试
package re;import java.text.ParseException;//正则表达式的测试import java.util.regex.*;public class SimpleRegex {public static void main(String[] args) {// TODO Auto-generated method stubtry{原创 2014-12-03 23:54:52 · 944 阅读 · 0 评论 -
Exception in thread "main" java.io.IOException: Job failed!
Exception in thread "main" java.io.IOException: Job failed! 已解决原创 2015-03-24 14:45:41 · 4534 阅读 · 0 评论 -
python使用urllib2包实现抓取抓取网页的三种形式
python使用urllib2包实现抓取抓取网页的三种形式原创 2016-07-22 11:15:28 · 1432 阅读 · 0 评论 -
搜索引擎学习笔记 --- 结构与模块图
搜索引擎学习笔记 --- 结构与模块图原创 2016-11-27 23:48:28 · 915 阅读 · 0 评论 -
Scrap学习笔记 --- python实现抓取整个网页
Scrap学习笔记 --- python实现抓取整个网页原创 2016-12-29 16:54:15 · 1712 阅读 · 0 评论 -
使用Score对文档进行排序
//使用Score对文档进行排序//根据相应的相关度进行排序package sort;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;原创 2014-11-18 09:19:44 · 1256 阅读 · 0 评论 -
理解主题爬虫源代码
//网络爬虫:理解主题爬虫//指定抓取机票价格的例子package com;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import o原创 2014-11-15 23:59:33 · 3283 阅读 · 2 评论 -
布隆过滤器
布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。基本概念编辑如果想要判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思原创 2014-11-09 17:16:09 · 1279 阅读 · 0 评论 -
MD5算法---java源代码
//MD5压缩算法代码package url;public class MD5 {public static String getMD5(byte[] source){String s = null;//用来将字节转换成十六进制表示的字符char hexDigits[] = {'0','1','2','3','4','5','6','7','8','9','a'原创 2014-11-09 14:48:04 · 1421 阅读 · 0 评论 -
Frontier接口 --- Berkeley DB爬虫队列实例
//使用Berkeley DB爬虫队列实例package url;public interface Frontier {public CrawUrl getNext() throws Exception;public boolean putUrl(CrawUrl url) throws Exception;//public boolean visited(CrawU原创 2014-11-09 15:03:45 · 1393 阅读 · 0 评论 -
AbstractFrontier
//使用一个抽象类来封装对Berkeley DB的操作package url;import java.io.File;import java.io.FileNotFoundException;import org.omg.CORBA.Environment;import com.sleepycat.bind.serial.StoredClassCatal原创 2014-11-09 15:05:34 · 867 阅读 · 0 评论 -
CrawlUrl --- 使用Berkeley DB爬虫队列实例
//使用Berkeley DB爬虫队列实例package url;import java.io.Serializable;import java.sql.Date;import java.sql.Timestamp;public class CrawUrl implements Serializable{private static final long s原创 2014-11-09 15:02:40 · 1387 阅读 · 0 评论 -
BDBFroniter --- 实现TODO表
package url;import java.io.FileNotFoundException;import java.util.Map.Entry;import java.util.Set;import com.sleepycat.bind.EntryBinding;import com.sleepycat.bind.serial.SerialBinding原创 2014-11-09 16:02:47 · 1054 阅读 · 0 评论 -
Heritrix
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面。原创 2014-11-09 20:03:51 · 1054 阅读 · 0 评论 -
网络爬虫-Heritrix 和 Nutch 比较与分析
Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技转载 2014-11-09 20:06:48 · 1498 阅读 · 0 评论 -
以下是一个简单的多线程爬虫实现
//以下是一个简单的多线程爬虫实现package thread;import java.util.concurrent.Callable;public class MThread extends Thread{threadList = new ArrayList(THREAD_NUM);for(int i = 0; i Thread t = ne原创 2014-11-11 08:15:21 · 1426 阅读 · 0 评论 -
Consistent Hash算法学习
ConsistentHashing算法代码。一致性哈希(Consistent Hash)协议简介一致性哈希算法在1997年由麻省理工学院提出(参见0),设计目标是为了解决因特网中的热点(Hot pot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题,使得DHT可以在P2P环境中真正得到应用。哈希算法一致性哈希提出了在动态变化的Cache环境中原创 2014-11-12 08:50:01 · 1038 阅读 · 0 评论 -
通过java访问HDFS
//通过一个简单的例子展示一下如何使用java访问HDFSpackage heritrix;import java.io.InputStream;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hadoop.io.IOUtils原创 2014-11-12 20:35:20 · 1310 阅读 · 0 评论 -
通过HDFS的API访问文件系统的例子
//通过HDFS的API访问文件系统的例子package heritrix;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.h原创 2014-11-12 21:01:05 · 1462 阅读 · 0 评论 -
Hadoop中WordCount例子的实现
//用Hadoop开源的计算包。package heritrix;import java.io.BufferedReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashSet;import java.util.Iterator;import java.util.L原创 2014-11-13 15:47:17 · 1167 阅读 · 0 评论 -
Nctch简介
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断原创 2014-11-14 09:02:52 · 1420 阅读 · 0 评论 -
限定爬虫 --- 输入网址,输出对应的IP地址
//根据主机字符串获得主机IP地址package com;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.InetAddress;import java.net.UnknownHostException;原创 2014-11-16 00:32:10 · 1635 阅读 · 0 评论 -
Scrap学习笔记 --- python实现抓取图片
Scrap学习笔记 --- python实现抓取图片原创 2016-12-29 19:51:35 · 752 阅读 · 0 评论