
搜索引擎
文章平均质量分 53
bb0905010427
这个作者很懒,什么都没留下…
展开
-
在 eclipse 下的heritrix1.14.4的配置
在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,对其进行真理 Eclipse 配置 Heritrix 1.14.4的配置过程如下: 1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4-src.zip(Windows) 2. 在Eclips原创 2013-04-07 20:33:24 · 683 阅读 · 1 评论 -
自己动手写网络爬虫
讲解网络爬虫开发的,介绍如何应用云计算架构开发分布式爬虫。猎兔搜索工程师多年项目经验总结 深入介绍Web数据挖掘实现过程 光盘中提供了高效的代码解决方案 案例均使用流行的Java语言编写 目目录 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 4 1.1.1 深入理解URL 4 1.1.2 通过指定的URL抓取网页内容 6 1.1.3原创 2013-04-18 09:59:58 · 919 阅读 · 0 评论 -
基于Berkeley DB实现的持久化队列
队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heritrix是基于Bdb实现了一个持久化队列,于是我就将这块代码独立出来,平时使用也蛮爽的,现在拿出来共享.同时数据已经持久化,相比放在内存的一次性,可以循环累加使用. 大家也知转载 2013-06-03 09:36:58 · 984 阅读 · 0 评论 -
htmlparser的用法
需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一 下htmlparser的使用,有空再研究neko转载 2013-08-30 21:21:16 · 694 阅读 · 0 评论 -
将关系型数据库中的数据转成RDF(一)
有两种方式,1、使用D2R工具生成虚拟RDF文件显示, 详细实现细节点击打开链接 2、使用Jena API自己构建三元组模型生成真实的RDF文件。 Jena SPI构建RDF模型 Jena API简介点击打开链原创 2013-10-06 16:40:48 · 3290 阅读 · 0 评论 -
聚类算法总结
聚类算法总结: --------------------------------------------------------- 聚类算法的种类: 基于划分聚类算法(partition clustering) k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据转载 2014-01-04 15:26:56 · 781 阅读 · 0 评论 -
信息熵,信息量
信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识N个事件中特定的一个事件的过程中所需要提问"是或否"的最少次数. 信息量=不确定性的多少。 信息熵即对信息量的度量,单位比特。 计算公式 H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(原创 2014-01-04 15:31:01 · 734 阅读 · 0 评论