最近一直在研究一个叫火车头的采集软件,现在终于有点眉目了,不过我的发布重点是在介绍怎么存储到本地access数据库上的,其他的我目前不需要也就暂时没去研究了,那么具体步骤是怎样的呢,让我们接着往下走~~~
1、为了方便管理,我们先建立测试站点,点击新建右边的小三角-->分组,先建立一个分组,再在分组下面建立测试的任务
2、接下来开始建立采集的任务,还是点击新建右边的小三角-->任务,打开新建任务对话框,如下图所示:
图1
这个就是任务的界面,好了,那么这边我就拿http://www.lawtime.cn/info/fangdichan/fcanli/这个做范例,因为首页和内页的规则是不一样的哦。因此,如下
2-1、第一步的采集网址规则,这边就是要把文章的地址先采集下来,所以我们分析了下页面发现要先分首页和内页问题。。所以我们先点击添加按钮如下:
图2
这个就是首页的地址,我们单独分开先添加一条单页地址采集规则。
2-2、然后重复上面的步骤,但是我们在添加采集地址的时候要选择击“批量/多页”命令,具体如下:
图3
好了我们已经分析好网址了,接下来就是截取文章的地址列表,,具体下面:
图4