数据采集过程介绍
简介
网络数据多种多样、组成复杂,对于不同的目的有不同的利用价值和使用方式,所以网络数据的利用必须经过再次地采集和筛选过程,才能从庞大而又杂乱的数据中挖掘出有价值的数据。本文简单地介绍一下网络数据采集的过程,其中主要可以分为如下六个主要模块。
网站页面分析(AnalyseSite Page)
先进入目标网站,分析要爬取网页上的全部内容,主要目的是分析网站的结构,找到目标数据所在的位置,并设计好最高效的爬取方法。
链接抽取(Extract URL)
从网页的内容中抽取出备选链接。
链接过滤(Filt URL)
根据制定的过滤规则选择链接,并过滤掉已经爬取过的链接。
内容抽取(Extract Content)
从网页中抽取目标内容。
爬取URL队列(Crawl URL Queue)
为爬虫提供需要爬取的网页链接。
数据(Data)
包含三个方面
Site URL: 需要抓取数据网站的URL信息。
Spider URL: 已经抓取过数据的网页URL信息。
Spider Content: