
kafka/flume/sqoop
文章平均质量分 62
qq_26182553
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Dubbo与Kafka对比
相同点:1. 都可以以分布式方式处理任务2. 都可以负载均衡 不同点:1. Dubbo处理任务是同步的,可以收到返回结果值。Kafka是异步的,不能返回结果值。2. Kafka可以存储消息,可以从某个消息重新开始执行。如果任务执行速度较慢,消息可以缓存,不会阻塞。原创 2017-07-13 11:37:57 · 9379 阅读 · 0 评论 -
Flume 简介
Flume是分布式、可靠、可用性好,用于收集、聚合、移动大量数据。基于流计算的简单灵活框架。用于在线分析。 优点:1. 可以和任意集中式存储进行集成2. 输入数据的速度大于存储速度,flume会进行缓冲3 flume提供上下文路由(数据流路线)4. flume中的事务基于channel,提供了两个事务模型(sender、receiver)确保消息可靠发送。原创 2017-07-13 11:33:16 · 362 阅读 · 0 评论 -
Flume 安装
1. downloadwget http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gzmv apache-flume-1.7.0-bin.tar.gz /usr/local/apache-flume-1.7.0-bin.tar.gztar -zxvf apache-flume-1.7.0-bin原创 2017-07-13 11:33:24 · 276 阅读 · 0 评论 -
Kafka 安装
1. download kafka_2.11-0.10.1.0.tgz, upload to /usr/localcd /usr/localtar -zxvf kafka_2.11-0.10.1.0.tgzmv kafka_2.11-0.10.1.0 kafka 2. config vi ~/.bashrcexport KAFKA_HOME=/usr/local/kaf原创 2017-07-13 11:34:08 · 255 阅读 · 0 评论 -
Kafka 基本应用--创建集群并且容错测试
Start zookeeperbin/zookeeper-server-start.sh config/zookeeper.properties Setting up a multi-broker cluster cp config/server.properties config/server-1.propertiescp config/server.properties c原创 2017-07-13 11:34:15 · 474 阅读 · 0 评论 -
Kafka 在zookeeper中的节点结构、日志结构
登录zookeeperzkCli.sh -server centos1:2181 创建topics mytopickafka-topics.sh --create --zookeeper centos1:2181,centos2:2181,centos3:2181 --replication-factor 3 --partitions 2 --topic mytopic z原创 2017-07-13 11:34:22 · 874 阅读 · 0 评论 -
Kafka 编写自己的producer、partitioner和consumer
1. 简单的 Producerimport java.util.Properties;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.P原创 2017-07-13 11:34:30 · 957 阅读 · 0 评论 -
Sqoop和mysql之间传输数据
参考:https://www.tutorialspoint.com/sqoop/sqoop_import.htm原创 2017-07-13 11:34:59 · 359 阅读 · 0 评论 -
Sqoop1 安装
1. download sqoopwget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gztar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gzln -s sqoop-1.4.6.bin_原创 2017-07-13 11:34:51 · 396 阅读 · 0 评论 -
Sqoop2安装 (unstable)
1. download sqoopwget http://apache.fayea.com/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz 或wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gztar原创 2017-07-13 11:34:44 · 306 阅读 · 0 评论 -
将Kafka作为Flume的Source
1. 配置flumekafka-source.propertiesagent1.sources = source1 agent1.channels = channel1 agent1.sinks = sink1 agent1.sources.source1.type = org.apache.flume.source.kafka.KafkaSourceagen原创 2017-07-13 11:34:37 · 2451 阅读 · 0 评论 -
Kafka 与 Flume 如何选择
采集层 主要可以使用Flume, Kafka两种技术。Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API.Kafka:Kafka是一个可持久化的分布式的消息队列。 Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。相比之下,Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据。它对H原创 2017-07-13 11:37:29 · 377 阅读 · 0 评论 -
将Flume作为Kafka的Consumer
参考:http://www.cnblogs.com/smartloli/p/4615908.html原创 2017-07-13 11:37:36 · 476 阅读 · 0 评论 -
RabbitMq、ActiveMq、ZeroMq、kafka之间的比较,资料汇总
_ ActiveMq RabbitMq Kafka producer容错,是否会丢数据 有ack模型,也有事务模型,保证至少不会丢数据。ack模型可能会有重复消息,事务模型则保证完全一致 批量形式下,可能会丢数据。 非批量形式下, 1. 使用同步模式,可能会有重复数据。 2. 异步模式,则可能会丢数据。 consumer容错,是否会丢数据 有ack模型,数据转载 2017-08-09 19:16:43 · 739 阅读 · 0 评论 -
Kafka到底会不会丢数据
转自:http://www.cnblogs.com/huxi2b/p/6056364.htmlKafka到底会不会丢数据(data loss)? 通常不会,但有些情况下的确有可能会发生。下面的参数配置及Best practice列表可以较好地保证数据的持久性(当然是trade-off,牺牲了吞吐量)。笔者会在该列表之后对列表中的每一项进行讨论,有兴趣的同学可以看下后面的分析。block.on.bu转载 2017-08-03 09:23:15 · 3884 阅读 · 0 评论 -
kafka的topic多分区的情况,如何保证跨区的消息消费的顺序性
这个问题严格来说是肯定有的,kafka只能保证分区内的有序性。 下面是kafka作者Jay Kreps的blog中介绍kafka设计思想的一段话。Each partition is a totally ordered log, but there is no global ordering between partitions (other than perhaps some wall原创 2017-07-13 11:37:43 · 12339 阅读 · 0 评论 -
Kafka应用--金融行业分布式数据计算
股票期货数据数据计算特点:1. 每只股票或期货账户有许多数据要计算而不涉及其它账户,比如净值、收益率、波动率、夏普值...2. 账户量一般比较大,有并发处理需求。3. 不需要Consumer运行完后向producer返回结果。 而Kafka刚好满足这些需求:1. 当partition数量大于consumer数据时,可以动态添加多个consumer,起到负载均衡的作用原创 2017-07-13 11:37:50 · 1392 阅读 · 0 评论 -
Kafka 简介
Kafka作用:1. 分布式流计算平台2. 类似于消息系统发布订阅数据流3. 以分布式、副本集群方式存储数据4. 实时处理数据流5. 构建实时数据流管道,水平可伸缩、容错、速度快 特点:1. 巨量数据,TB级2. 高吞吐量 支持每秒百万消息3. 分布式 支持在多个server之间进行消息分区4. 多语言客户端支持 技术特点:1. 消息原创 2017-07-13 11:34:01 · 230 阅读 · 0 评论