数据生命周期管理与Twitter数据处理实战
1. 数据生命周期管理概述
数据并非只存在于某一时刻,特别是对于长期运行的生产工作流,在Hadoop集群中可能会获取大量数据。需求很少长期保持不变,除了新的逻辑,数据的格式可能会改变,或者需要使用多个数据源来提供应用程序中处理的数据集。数据生命周期管理是一种处理数据收集、存储和转换的方法,确保数据在需要的位置,以需要的格式存在,并允许数据和系统随时间演变。
数据生命周期管理非常重要,如果构建数据处理应用程序,必然依赖于所处理的数据。就像考虑应用程序和系统的可靠性一样,也需要确保数据可以用于生产。数据需要被摄入Hadoop,它是企业的一部分,通常与外部系统有多个集成点。如果从这些系统摄入的数据不可靠,那么对处理这些数据的作业的影响通常与重大系统故障一样具有破坏性。数据摄入本身成为一个关键组件,这里的可靠不仅指数据到达,还指以可用的格式通过能够处理随时间演变的机制到达。很多问题在流量大、系统关键且任何问题的业务影响不可忽视时才会显著出现。对于不太关键的数据流有效的临时方法通常无法扩展,并且在实时系统中替换会非常痛苦。
有几类工具可以帮助解决数据生命周期管理问题:
- 编排服务:构建摄入管道通常有多个离散阶段,使用编排工具来描述、执行和管理这些阶段。
- 连接器:考虑到与外部系统集成的重要性,使用连接器来简化Hadoop存储提供的抽象。
- 文件格式:数据的存储方式会影响如何管理格式随时间的演变,一些丰富的存储格式有支持这种演变的方法。
2. 构建Twitter数据摄入管道
2.1 获取推文数据
首先要获取实际的推文数据,可以通过将 -j 和
超级会员免费看
订阅专栏 解锁全文
657

被折叠的 条评论
为什么被折叠?



