
分布式系统
程序引力
这个作者很懒,什么都没留下…
展开
-
Spark概述
Spark概述Spark特点内存计算中间处理数据也放在内存中,减少磁盘I/O支持复杂查询:包括filter、SQL查询、流式查询等支持实时流处理(Hadoop只能离线处理)迭代计算Spark应用框架Spark StreamingTachyon过去,Spark的计算功能和内存管理都是在JVM中,导致JVM负载较高,且JVM崩溃后数据会丢失。 Tachyon的目的是分离Spark的计算功能原创 2016-09-08 09:11:42 · 522 阅读 · 0 评论 -
Hadoop和Spark的联系和区别
Hadoop和Spark的联系和区别计算数据存储位置Hadoop:硬盘Spark:内存计算模型Hadoop:单一Spark:丰富处理方式Hadoop:非迭代Spark:迭代场景要求Hadoop:离线批处理。(面对SQL交互式查询、实时处理及机器学习等需要和第三方框架结合。多种数据格式转换,导致消耗大量资源)Spark:批处理、实时处理原创 2016-09-08 09:11:11 · 3680 阅读 · 0 评论 -
Spark Streaming和Storm的区别和联系
Spark Streaming和Storm区别和联系Spark Streaming和Storm都是将流数据分成一个个小块的批数据(batch)。处理模型、延迟Strom:处理的是每次传入的事件。秒内延迟。(最小100ms) Spark Streaming:处理的是某个时间段窗口内的事件流。秒级延迟。(0.5~2s)容错、数据保证Strom:每个单独的记录都会被跟踪。恢复时,意味着状态可能被错误滴更原创 2016-09-08 09:10:41 · 1199 阅读 · 0 评论 -
Spark Streaming
Spark Streaming流程创建StreamingContext对象定义输入源定义处理过程调用StreamingContext的start()方法开始处理数据处理过程持续到StreamingContext的stop方法被调用状态一个应用程序只允许有一个SparkContext处于活跃状态,创建新的时,会将老的关闭才行一个SparkContext对象可以创建多个Streaming原创 2016-09-08 09:10:05 · 231 阅读 · 0 评论