
流式计算streamingKafka
文章平均质量分 86
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
大数据处理引擎Spark与Flink对比分析!
大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop、Storm,还是后来的Spark、Flink。然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个。今天,大圣众包威客平台(www.dashengzb.cn)将从几个项出发着重对比Spark与Flink这两个大数据处理引擎,探讨其两者的区别。 一、Spark与Fl...转载 2018-05-04 18:06:39 · 40979 阅读 · 0 评论 -
Flink之一 Flink基本原理介绍
Flink介绍:很多人可能都是在 2015 年才听到 Flink 这个词,其实早在 2008 年,Flink 的前身已经是柏林理工大学一个研究性项目, 在 2014 被 Apache 孵化器所接受,然后迅速地成为了 ASF(Apache Software Foundation)的顶级项目之一。Flink 的最新版本目前已经更新到了 0.10.0 了,在很多人感慨 Spark 的快速发展的同时,或许...转载 2018-05-04 17:52:09 · 973 阅读 · 0 评论 -
Flink StreamSQL简介
提到目前Table API的问题,batch和stream的API各自能支持的query不一样。However, the original Table API had a few limitations. First of all, it could not stand alone. Table API queries had to be always embedded into a DataSe...转载 2018-05-04 17:46:43 · 16070 阅读 · 1 评论 -
###好好好好####### Kafka学习之一 Kafka是什么,主要应用在什么场景?
1、kafka是什么? Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。2、产生背景 Kafka是一个消息系统,用作LinkedIn的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。活动流数据是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数...转载 2018-05-04 16:54:32 · 213 阅读 · 0 评论 -
kafka高效之一:文件系统
kafka关键特⾊• 可伸缩架构• 高吞吐量• consumer自动负载均衡• 支持集群多副本而本博客是一个kafka文件系统深入过程。存储结构 目的:提高磁盘利用率和消息处理性能。1. 在kafka文件系统中,同一个topic下有多个不同partition,每个partition创建一个目录。即topic下有分区的子目录。2. 每个partion相当于一个巨型文件被平均分配到多个大小相等的多个s...转载 2018-05-04 11:21:57 · 860 阅读 · 0 评论 -
####好好好¥#####spark Streaming 技术内幕 : 从DSteam到RDD全过程解析
一、DStream和RDD的关系 DSream 代表了一系列连续的RDD,DStream中每个RDD包含特定时间间隔的数据,如下图所示: 从上图可以看出,一个DStream 对应了时间维度上的多个RDD。 DStream 作为Spark Stream的一个基本抽象,提供了高层的API来进行Spark Streaming 程序开发转载 2017-12-11 16:21:06 · 393 阅读 · 0 评论 -
SparkStreaming计算WordCount简单示例
在之前的Spark程序中,我们是对RDD进行各种操作,SparkStreaming我们对DStream操作,其中DStream是discretized stream(离散流)的简写,官网对他的解释是:DStreams can be created either from input data streams from sources such as Kafka, Flume, and Ki转载 2017-12-11 09:41:31 · 332 阅读 · 0 评论 -
######好好好#######DStream 生成 RDD 实例详解
DStream 生成 RDD 实例详解[酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本系列内容适用范围:* 2016.12.28 update, Spark 2.1 全系列 √ (2.1.0)* 2016.11.14 update, Spark 2.0 全系列 √ (2.0.0, 2.0.1, 2转载 2017-12-07 18:06:28 · 342 阅读 · 0 评论 -
######好#######输入DStreams和receivers
输入DStreams和receivers输入DStreams表示从数据源获取输入数据流的DStreams。在快速例子中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receiver对象相关联,这个Receiver从源中获取数据,并将数据存入内存中用于处理。输入DStreams表示从数据源获取的原始数据流。Spark Stream转载 2017-12-07 18:01:24 · 255 阅读 · 0 评论 -
####好#####DStreams上的输出操作
DStreams上的输出操作输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。目前,定义了下面几种输出操作:Output OperationMeaningprint()在DStream的每个批数据中打印前10条元素,这个操作在开发和调试中都非常转载 2017-12-07 17:55:43 · 520 阅读 · 0 评论 -
####好#####DStream中的转换(transformation)
DStream中的转换(transformation)和RDD类似,transformation允许从输入DStream来的数据被修改。DStreams支持很多在RDD中可用的transformation算子。一些常用的算子如下所示:TransformationMeaningmap(func)利用函数func处理原DStream的每个元素,返回一个新转载 2017-12-07 17:51:30 · 1095 阅读 · 0 评论 -
#####好####Kafka基本操作命令
[Kafka] - Kafka基本操作命令Kafka支持的基本命令位于${KAFKA_HOME}/bin文件夹中,主要是kafka-topics.sh命令;Kafka命令参考页面: kafka-0.8.x-帮助文档 -1. 查看帮助信息bin/kafka-topics.sh --help -2. 创建Topic转载 2017-12-07 17:11:34 · 292 阅读 · 0 评论 -
Kafka 如何读取offset topic内容 (__consumer_offsets)
众所周知,由于Zookeeper并不适合大批量的频繁写入操作,新版Kafka已推荐将consumer的位移信息保存在Kafka内部的topic中,即__consumer_offsets topic,并且默认提供了kafka_consumer_groups.sh脚本供用户查看consumer信息。 不过依然有很多用户希望了解__consumer_offsets topic内部到底保存了什么转载 2017-12-07 16:54:32 · 460 阅读 · 0 评论 -
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版转载 2017-12-07 10:37:09 · 567 阅读 · 0 评论 -
#####好#########基于Python的Spark Streaming+Kafka编程实践
说明Spark Streaming的原理说明的文章很多,这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明spark streaming:http://spark.apache.org/docs/1.6.0/streaming-programming-guide.htmlstreaming-kafka-integration:htt转载 2017-12-07 10:09:44 · 491 阅读 · 0 评论 -
python——操作Redis
在使用django的websocket的时候,发现web请求和其他当前的django进程的内存是不共享的,猜测django的机制可能是每来一个web请求,就开启一个进程去与web进行交互,一次来达到利用cpu多核的目的。但是这样一来,内存共享的问题就变成了焦点。这周试了一下redis,果然很好用。 redis是一个key-value存储系统。和Memcached类似,它支持存储的valu转载 2017-11-29 16:58:11 · 1533 阅读 · 0 评论 -
#####好######Python标准库系列之Redis模块
Python标准库系列之Redis模块What is redis?Redis is an open source (BSD licensed), in-memory data structure store, used as database, cache and message broker. It supports data structures such as str转载 2017-11-29 16:52:53 · 977 阅读 · 0 评论 -
#########好####### pyspark-Spark Streaming编程指南
参考:1、http://spark.apache.org/docs/latest/streaming-programming-guide.html2、https://github.com/apache/spark/tree/v2.2.0Spark Streaming编程指南OverviewA Quick ExampleBasic Concepts转载 2017-11-29 14:12:34 · 1337 阅读 · 0 评论 -
spark streaming + kafka +python(编程)初探
一、环境部署hadoop集群2.7.1zookeerper集群kafka集群:kafka_2.11-0.10.0.0spark集群:spark-2.0.1-bin-hadoop2.7.tgz环境搭建可参考我前面几篇文章。不再赘述三台机器:master,slave1,slave2二、启动集群环境1.启动hadoop集群start-all.sh2.启动spark集群start-mas转载 2017-11-29 14:11:00 · 6013 阅读 · 0 评论 -
flume-kafka- spark streaming(pyspark) - redis 实时日志收集实时计算 + Spark 基于pyspark下的实时日志分析
鉴于实在是比较少python相关是spark streaming的例子,对于自己实现的测试例子分享上来一起讨论。另外如果做spark streaming应用程序,强烈建议使用scala,python写日常的spark批处理程序还好这个例子为一个简单的收集hive的元数据日志,监控各个hive客户端访问表的统计。例子简单,但是涉及到不同的组件的应用,结构图(不含红色方框)如下 这也是L转载 2017-11-29 14:03:21 · 2239 阅读 · 0 评论 -
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同,流计算模型在数据流动的过程中实时地进行捕捉和处理,并根据业务需求对数据进行计算分析,最终把结果保存或者分发给需要的组件。本文将从实时数转载 2017-11-29 13:29:24 · 822 阅读 · 0 评论 -
Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表:create 'linecount','count'开启kafka集群并建立相应的topic:[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h转载 2017-11-29 13:21:52 · 1715 阅读 · 0 评论