大数据技术体系
大数据分布式计算
- 大数据分布式计算1
分布式计算
分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。
这样可以节约整体计算时间,大大提高计算效率。
离线分布式计算
在计算开始前已知所有输入数据,输入数据不会产生变化,并且计算之后直接产生结果。
特点:
数据量巨大且保存时间长
在大量数据上进行复杂的批量运算
数据在计算之前已经完全到位,不会发生变化
能够方便的查询批量计算的结果
主要技术:
Mapreduce
SparkCore - 大数据分布式计算2
流式分布式计算
对大规模流动数据在不断变化的运动过程中实时地进行计算,来一条数据就计算一下。
主要技术:
Spark Streamming
Storm