按照数据采集工具平台的不同,分为三种采集工具,分别是第三方采集平台工具、平台编程开发、采集工具定制等三种,本教材将在后续的项目中使用这三种工具实现网络数据采集、系统日志数据采集、操作系统日志数据采集、数据库数据采集等。
第三方采集平台,主要应用于商业的一类工具,如八爪鱼采集器、浪潮数据采集平台、日志易等十多种工具。本项目以使用八爪鱼采集器实现网站数据采集案例,入门学习大数据采集和了解大数据采集流程。
(1)八爪鱼采集器
八爪鱼采集器是一款可以免费使用的、可视化采集的、所见即所得的、全网适用的、简单高效而且稳定的网页爬虫工具,内置各大网站如淘宝、京东、拼多多、天猫、苏宁、唯品会、阿里巴巴等国内主流电商平台,以及其他多个行业,无须编码即可直接从许多网站中抓取数据。为了减少使用上的难度,八爪鱼为初学者准备了“网站简易模板”,涵盖市面上的多数主流网站。用户使用简易模板时无需进行任务配置即可采集数据,简易模板为采集小白建立了自信。此外,还可以设置定时云采集,实时获取动态数据并定时导出数据到数据库或任意第三方平台。
(2)浪潮数据采集平台
提供多场景数据计算和分析挖掘的科研基础环境,充分结合行业课题的相关数据,并利用大数据技术深入挖掘分析,满足行业大数据的科研工作需求,进一步提升高校的大数据科研水平,借助完善的“产学研”体系实现科研成果向业务价值的转化。
(3)日志易
日志易是一款专业的日志分析工具,该平台提供功能强大、简单易用的搜索方式,包括范围查询、字段过滤、正则表达式、NOT/AND/OR布尔值、模糊匹配等方式,并能对查询字段高亮显示、定位日志的上下文,TB级海量数据可快速返回搜索结果。
第三种数据采集--采集数据工具定制。
采集工具定制,比如采集日志数据类型的数据的工具,有Flume、Logstash、Filebeat三种,本教材中将使用Flume以及Windows下部署Logstash实施数据采集作为案例。
(1)Flume
Flume是一个分布式的、高可靠的、高可用的日志采集器,主要用于将大批量的不同数据源的日志数据进行收集、聚合并移动到数据中心-分布式文件系统(HDFS),从而进行存储。
(2)Logstash
Logstash是一种在日志关系系统中进行日志采集的设备,简单来说Logstash就是一根具备实时数据传输能力的管道,负责将数据信息从管道的输入端传输到管道的输出端,同时这根管道也可以根据自己的需求加上滤网。
(3)Filebeat
Filebeat是一种开源的本地文件日志数据采集器,可以监控日志目录的日志文件,在使用过程中通过简单的命令配置即可实现通用日志格式的收集过程。在使用过程中涉及两个组件-查找器和采集器来读取文件,并将事件数据发送到指定的输出。
3. 平台编程开发
数据采集软件开发,是指用计算机获取从硬件设备传输到计算机的数据,如电磁场、温度、湿度、压力、电磁场、图像、声音等模拟信号通过传感器、放大器、滤波器等预处理后,经过A/D(模数转换)变成数字信号,经过串口,或者USB口、网口,将数字信号输入计算机,计算机接收到这些数字信号(也可叫数据)后将其保存、显示以及一系列处理。所以数据采集软件包括两部分,一是硬件部分的下位机软件,一是计算机中的上位机软件。下位机软件的功能主要是A/D,数字滤波,实时处理,数据传送,大部分人用C语言实现。上位机软件主要完成数据收集、保存、显示以及处理、分析等,可实现的语言比较多,如C++、C#、VB、Python、JAVA等。
本项目配置Python语言平台编程开发,实现网络数据的采集。