大数据分析与集成:从概念到实践
1. 大数据分析框架与悖论
1.1 Open Chorus 框架
Open Chorus 是一个通用框架,其主要特点是能够创建一个共享大数据源、见解、分析技术和可视化成果的公共“中心”。它提供以下功能:
- 具备完整版本控制、变更跟踪和存档功能的分析工具、工件和技术存储库。
- 由社区成员自行配置和轻松维护的工作区和沙盒。
- 可视化功能,包括热图、时间序列、直方图等。
- 对所有数据资产(包括 Hadoop、元数据、SQL 存储库和注释)的联合搜索。
- 通过类似社交网络的功能促进发现、共享和头脑风暴的协作机制。
- 可扩展性,用于集成第三方组件和技术。
1.2 大数据悖论:从大到小
大数据分析看似处理海量数据,但实际上核心是小数据。小数据是大数据分析的产物,这并非新概念。传统数据分析面对数据库中大量的客户信息、产品信息、交易数据等时,由于系统、网络和软件性能及容量限制,无法高效分析。于是行业通过创建较小的数据集来解决,但这些小数据集仍存在数据与工作上下文不匹配的问题,进而又创建了更小、更具上下文相关性的数据集。
从数据库到数据仓库再到数据集市的迁移过程中,数据选择往往基于任意或实验性参数,导致大量的试错。而大数据的出现,虽然解决了基础设施的不足,能够存储和处理海量数据,但也引入了新的技术来管理大数据。如今,我们需要及时分析正确的数据以做出决策和采取行动,将大数据处理成小数据,使其更易于理解、更精确且更具上下文相关性。
2. 大数据集成概述
2.1 大数据集成的重要性
为了
超级会员免费看
订阅专栏 解锁全文
2897

被折叠的 条评论
为什么被折叠?



