
大数据
小事儿Phil
The growing way of a SA
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据架构之端到端方案综述(1)数据采集
序言:为便于初学者,对大数据的端到端架构有一个整体认知。我站在售前解决方案角度,整理和汇总了从数据采集、数据分析、数据存储再到数据治理等多方面内容。希望大家在读完本篇内容之后,可以有所学,有所得。(注:本文主要面向解决方案层面,对R&D同学的帮助可能不是很大) 1. 数据采集传输方式汇总 Flume,非关系型数据的收集(与Fluentd类似),日志等信息收集 Logstash,Ela...原创 2019-03-24 15:39:29 · 1692 阅读 · 0 评论 -
大数据架构之端到端方案综述(2)数据处理
序言:大数据处理的核心问题,一是海量数据如何存储?二是海量数据如何计算?传统的数据库处理,无论是存储数据的能力,还是处理数据的能力,在面对大量数据时,瓶颈渐显。大数据的诞生很好地处理了以上两个问题,传统数据处理体系和大数据体系的区别如下图所示: 本文将介绍大数据系统最基本组件之处理框架,按之前看过的文章,将其分为三大类: 仅批处理框架,Apache Hadoop,指处理大量数据的任务,无论...原创 2019-03-27 22:37:08 · 1366 阅读 · 0 评论 -
大数据架构之端到端方案综述(3)数据仓储&Hive
1 数据仓库介绍 1.1 数据仓库简介 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,主要针对来自多个数据源的历史数据进行细粒度、多维度的分析,输出用于企业的数据分析、数据挖掘、数据报表等方向,帮助管理者或业务分析人员做出商业战略决策。 数据仓库可概括为四个特点: 面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据...原创 2019-03-28 20:44:22 · 1185 阅读 · 0 评论