大数据采集的未来需求、趋势与行业应用
1. 大数据采集的未来需求与新兴趋势
大数据采集工具需要处理高速、多样和实时的数据采集任务,因此必须确保非常高的吞吐量。数据可能来自多种不同结构的资源,如社交网络、传感器、网络挖掘、日志等,也可能是无结构的数据,如文本、视频、图片和媒体文件,且数据产生的速度极快(每秒数万甚至数十万事件)。所以,大数据采集的主要挑战在于提供能够确保所需吞吐量且不丢失数据的框架和工具。
1.1 新兴挑战
- 多样化数据源处理 :数据采集通常由为系统提供输入数据的工具启动,数据来源的端点可能有不同的技术形式,如日志导入器、基于Storm的算法,甚至可能通过RESTful服务或其他编程API向外部提供数据注入接口。因此,从不同来源采集数据的技术解决方案需要能够处理各种不同的实现方式。
- 数据处理与存储连接 :需要提供机制将数据采集与数据的预处理、后处理(分析)和存储相连接,包括历史数据层和实时数据层。例如,Apache Kafka使用发布 - 订阅机制,Hadoop和Storm可以订阅消息;Apache Flume则将数据存储在NoSQL键值存储中以确保速度,并将数据推送给一个或多个接收器。数据采集、存储和分析之间的界限在这个过程中较为模糊,数据采集通常以将原始数据存储在合适的主数据集中并连接到分析管道而结束。
- 数据预处理模型 :需要建立适用于数据分析的结构化或半结构化模型,以有效地预处理采集到的数据,特别是非结构化数据。在预处理阶段,数据采集和分析的界限变得模糊。数据清洗通常包括去除样板内容(
大数据采集趋势与行业应用
超级会员免费看
订阅专栏 解锁全文
2268

被折叠的 条评论
为什么被折叠?



