larbin 编译成功后做什么

最新推荐文章于 2015-04-20 23:40:50 发布

原创最新推荐文章于 2015-04-20 23:40:50 发布 · 1.8k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#dns服务器 #url #算法 #filter #网络 #windows

网络专栏收录该内容

30 篇文章

订阅专栏

本文详细介绍了Larbin爬虫的基本原理、关键函数及其工作流程，包括URL的规整化、判重、爬虫队列设计、网络与文件存取控制等核心问题。同时，阐述了如何利用SourceInsight软件分析源代码，并讨论了数据的进一步处理，如导入数据库。

larbin编译成功后，有两个主要方向：一是通过相关资料读Larbin的源代码，最终的目的是自己能开发个简单的爬虫；第二个是分析得到的数据，做数据的分析与挖掘。当然，也有人想把这些数据提取出来后，怎么导入数据库。

所有源代码的读法，肯定要用到工具。在windows下可以用vs系列，而linux开发的源代码则用SourceInsight。所以这里我使用SourceInsight软件看Larbin。

首先通过网络知识了解爬虫的基本知识和基本问题。爬虫从一个URL出发，使用广度优先算法，遍历整个网站。其中涉及URL的规整化（MD5算法），URL的判重（Bloom Filter算法），爬虫队列的设计，对网络和文件存取的控制等问题。

Larbin的主函数中有Larbin爬虫的主要工作流程，其代码如下：

    stateMain(-count);
    waitBandwidth(&old);
    stateMain(1);
    for (int i=0; i<global::maxFds; i++)
      global::ansPoll[i] = 0;
    for (uint i=0; i<global::posPoll; i++)
      global::ansPoll[global::pollfds[i].fd] = global::pollfds[i].revents;
    global::posPoll = 0;
    stateMain(2);
    input();
    stateMain(3);
    sequencer();
    stateMain(4);
    fetchDns();
    stateMain(5);
    fetchOpen();
    stateMain(6);
    checkAll();
    // select
    stateMain(count++);
    poll(global::pollfds, global::posPoll, 10);
    stateMain(7);

其中，stateMain 函数其实是个简单的宏，只是将状态变量简单的设置为i，记录当前爬虫所处在第几个阶段；

#define stateMain(i) (stateMain = i)

其他几个函数，网上查到的资料如下：

        1.waitbandwidth() 等待带宽满足需要
        2.input() 将需要爬取的seed URL装载进来
        3.sequencer() 对将要爬取的页面进行缓冲，确定每一轮可以进行爬取的页面
        4.fetchDns() 获取待爬取页面的IP地址和端口号，这需要通过练习DNS服务器将URL进行转换
        5.fetchOpen() 获取当前网页
        6.checkAll() 做一些检验和网页链接分析（也是我们可以定制化的一部分）

先写到这，继续学习中……