
网络爬虫
文章平均质量分 86
s030702614
这个作者很懒,什么都没留下…
展开
-
larbin编译、运行与配置
larbin是一种高效的搜索引擎爬虫工具,larbin官方地址:http://larbin.sourceforge.net/index-eng.html,我下的是larbin-2.6.3.tar.gz版本。一、编译命令行sudo apt-get install [softname]安装gcc、g++、make、xutils-dev(1)打开./adns/internal.h文件原创 2010-03-15 23:27:00 · 3673 阅读 · 0 评论 -
larbin的详细配置
配置英文原版说明:http://larbin.sourceforge.net/custom-eng.html#larbin.conf larbin.conf################################################ Who are you ?# mail of the one who launched larbin (YOUR原创 2010-03-24 17:27:00 · 2878 阅读 · 0 评论 -
larbin中input.cc(input函数)源码阅读
// Larbin// Sebastien Ailleret// 03-02-00 -> 23-11-01#include #include using namespace std;#include #include #include #include "options.h"#include "types.h"#include "global.h"#原创 2010-05-06 15:16:00 · 1716 阅读 · 2 评论 -
larbin中sequencer()及其相关函数阅读
<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } -->函数调用关系:sequencer()---canGetUrl()------get()------tryget()------putPriorityUrlWait (ur原创 2010-05-13 21:32:00 · 835 阅读 · 0 评论 -
larbin程序重启方案
<br /><br />问题说明:larbin程序爬取某个网站,在爬取完所有连接后,如果有定义爬取完后exit(),则程序会终止进程;如果没有定义,larbin程序只会会输出一些统计信息,其他貌似都没工作了,对于新增的连接也不会爬取。<br />鉴于以上问题,larbin程序需要重启。一下介绍两个方案,代码就不贴了。<br /> <br /> <br />方案一:<br />主要思想:<br />判断队列( URLsDisk->getLength(),URLsDiskWait->getLength() )是原创 2010-07-16 17:28:00 · 749 阅读 · 0 评论 -
larbin主要代码说明
larbin流程图:初始化各种静态变量和队列,各种模块初始化,url放入urlsDiskStartThread()启动web servermaincron();查看连接是否超时,动态更新状态信息、绘制状态图等waitBandwidth等待带宽程序刚启动input()接受数据,装载urlsequencer();对url队列进行爬取cangeturl()按优先级装载定量url到namedSiteLisrputGenericUrl()dns检查,放入dnssitefetchDns();解析DNSsites中的dn原创 2010-06-21 15:13:00 · 1675 阅读 · 0 评论 -
larbin中运用数据库mysql
<br /> <!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } --><br />larbin这个程序只负责采集原始数据,并没有对数据进行处理,不过可以自己建立数据库,方便下一步的处理。对mysql数据库的连接和相关已经之前的文章中有所介绍了,这里不再累赘,只是说明编译的时候需要注意的地方。<br />在需要数据库操作的程序代码中加入mysql.h头文件。<br />编译makefile的原创 2010-08-17 10:30:00 · 1259 阅读 · 4 评论 -
Heritrix安装与运行
一、Heritrix直接安装1、下载 heritrix-1.14.4.zip、heritrix-1.14.4-src.zip,将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录。如:F:\Heritrix2、然后,将 F:\Heritrix 目录中的原创 2011-08-23 19:59:46 · 993 阅读 · 0 评论