Larbin 网络爬虫在Linux下的配置 ---终于搞定了

本文详细介绍了如何在Windows XP系统上安装并配置ReaHat虚拟机,以及如何在该虚拟机中解压并编译Larbin软件。包括虚拟机的设置、关键文件的修改、编译过程中的注意事项以及最终运行Larbin的步骤。通过调整选项文件、注释关键代码行、修改配置文件larbin.conf,最终成功实现了Larbin的运行,并解释了如何通过其保存的网页文件来跟踪爬取的网页序列。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我主机是Windows XP系统,又装了ReaHat虚拟机在上边(Labin目前好像还不支持Windows,不得已而为之)

1. labin-2.6.2解压缩 (on Windows XP)


2. options.h 注释掉options.h中的这行:#define DEFAULT_OUTPUT // do nothing... 让SIMPLE_SAVE :生效 (on Windows XP using VC6.0)


3. ./adns/internal.h 568-571行注释掉;
   #include <sys/poll.h>//added by chuyanli for struct pollfd on line 303
   注释掉PRINTFFORMAT(4,5) on line 323 325 327

4. larbin.conf 在这个文件中可以修改starturl Proxy 连接数等等(on Windows XP using VC6.0)

5. VM->settings->share->add this file "larbin" in

6. on RedHat VM terminal
->cd /
->cd mnt
->cd hgfs
->cd larbin
->./configure (编译会有2个左右的error,没关系,继续往下进行)
->make (如果成功,则生成larbin文件)
->./larbin ()
中止 ->ctrl + c
重起 ->./larbin -scratch

 

我当时是第3条的最后一步没做好,导致编译了半天,也郁闷个半死。。。还好还好,爬虫开始爬了!

 

爬到的网页放在larbin->save文件夹中,每1000个网页为一个子文件夹,里边有index索引文件,记录了爬过的url序列,正好为我所用哈哈!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值