
大数据
今天摸鱼了吗
http://alextk2012.github.io
展开
-
kafka 有序性和偏移量offset
Kafka分布式的单位是partition,同一个partition用一个write ahead log组织,所以可以保证FIFO的顺序。不同partition之间不能保证顺序。Apache Kafka官方保证了partition内部的数据有效性(追加写、offset读);为了提高Topic的并发吞吐能力,可以提高Topic的partition数,并通过设置partition的repl...原创 2019-03-03 11:27:29 · 1662 阅读 · 0 评论 -
Kafka基础(二)
常用命令#启动服务 服务器上所有服务已启动。启动Zookeeper:> bin/zookeeper-server-start.sh config/zookeeper.properties启动Kafka:> bin/kafka-server-start.sh config/server.properties#创建topic (默认已进入kafka目录)./bin/kafk...原创 2019-03-03 11:29:33 · 319 阅读 · 0 评论 -
Kafka 基础(一)
官网:http://kafka.apache.org/最新:Apache Kafka is a community distributed streaming platform capable of handling trillions of events a day. Initially conceived as a messaging queue, Kafka is based on an...转载 2019-03-03 11:22:36 · 199 阅读 · 0 评论 -
flume Selector(复用与复制)测试
转载:https://blog.youkuaiyun.com/looklook5/article/details/40430965Flume支持从一个源发送事件到多个通道中,这被称为事件流的复用。这里需要在配置中定义事件流的复制/复用,选择1个或者多个通道进行数据流向。而关于selector配置前面也讲过:<Agent>.sources.<Source1>.se...转载 2019-03-13 15:10:22 · 750 阅读 · 0 评论 -
Redis命令与配置
Redis 命令参考:doc.redisfans.comRedis Cluster 3.0.5 集群的命令、使用、维护:https://www.zybuluo.com/phper/note/205009redis配置详解:https://www.cnblogs.com/joshua317/p/5635297.htmlRedis详解与常见问题解决方案:https://blog.youkuaiyun.com/xy...转载 2018-07-08 16:37:51 · 136 阅读 · 0 评论 -
HDFS初步
HDFS是hadoop的分布式文件系统,全称:Hadoop Distributed Filesystem。由1个master(call me NameNode)和N个slaver组成(call me datanode)。其中namenode负责存储元数据,控制和协调datanode存储文件数据。通过写多份(可定义,默认1)的方式实现数据的可靠性和读取的高效性。主要特点: 1. 适合存储大文件...原创 2018-07-08 16:38:01 · 213 阅读 · 0 评论 -
hadoop token过期问题
1、Token 过期问题 Failed to Update HDFS Delegation Token for long running application in HA mode参见 https://issues.apache.org/jira/browse/HDFS-9276 https://github.com/apache/spark/pull/9168错误信息:org.apache.h...原创 2018-07-08 16:38:06 · 4426 阅读 · 0 评论 -
hadoop集群高可用 (High Availability)
参考资料:大数据集群环境搭建——HDFS HA篇:https://segmentfault.com/a/1190000007239743Hadoop NameNode 高可用 (High Availability) 实现解析:https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-name-node/...转载 2018-07-08 16:38:10 · 583 阅读 · 0 评论 -
Hadoop MapReduce框架
参考资料:hadoop 学习笔记:mapreduce框架详解:www.cnblogs.com/sharpxiajun/p/3151395.htmlMR框架结构:https://blog.youkuaiyun.com/wf1982/article/details/6682427转载 2018-07-08 16:38:14 · 137 阅读 · 0 评论 -
Jedis
参考资料Redis 单点模式和集群模式代码测试及问题记录:https://blog.youkuaiyun.com/boonya/article/details/49466003JedisCluster操作redis集群demo:https://www.cnblogs.com/lxcy/p/8120301.html Redis 单点模式和集群模式代码测试方式略有不同。1)cluster环境下redis的slav...转载 2018-07-08 16:37:47 · 804 阅读 · 0 评论 -
Redis 集群模式&管道模式
参考资料:Redis集群模式:redis集群 应该注意的问题:https://blog.youkuaiyun.com/zhang89xiao/article/details/51273970Redis连接池---jedis-2.9.0+commons-pool2-2.4.2:https://blog.youkuaiyun.com/wangshuang1631/article/details/54091673jedis连接...转载 2018-07-08 16:37:42 · 1557 阅读 · 0 评论 -
Flume中同时使用Kafka Source和Kafka Sink的Topic覆盖问题
转载:http://lxw1234.com/archives/2016/06/684.htm如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数据仍然会被写入到Source...转载 2018-06-28 16:01:43 · 1301 阅读 · 0 评论 -
flume Interceptor
拦截器的介绍与使用Flume InterceptorsInterceptor类型说明Timestamp Interceptor在event的header中添加一个key叫:timestamp,value为当前的时间戳。Host Interceptor在event的header中添加一个key叫:host,value为当前机器的hostname或者ip。Static Interceptor可以在ev...原创 2018-06-28 16:05:23 · 642 阅读 · 0 评论 -
flume基础(三)
flume启动进入flume客户端的bin目录,执行命令:./flume-ng agent --conf ../conf/ -f ../conf/flumeToKafka.conf -Dflume.root.logger=DEBUG,console -n agentDemo配置文件名:flumeToKafka,配置文件中agent的名称:agentDemo##关闭...原创 2019-03-02 19:06:24 · 207 阅读 · 0 评论 -
flume基础(二)
Flume 的 Source、Channel和Sink的内置类型如下:(可参考官网修改配置 http://flume.apache.org/FlumeUserGuide.html)Flume Source Source类型 说明 Avro Source 支持Avro协议(实际上是Avro RPC),内置支持...原创 2019-03-02 19:06:08 · 330 阅读 · 0 评论 -
flume基础(一)
官网:http://flume.apache.org/FlumeUserGuide.html概念:flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。1、Flume 的一些核心概念:组件 功能...转载 2019-03-02 19:05:44 · 288 阅读 · 0 评论 -
Redis读写分离
场景:Redis的主从架构,能帮助我们实现读多,写少的情况意义:读写分离主要是为了扩展读。你也可以理解为提高了并发吞吐和负载能力。读写分离一致性 读写分离: 为保证数据库数据的一致性,我们要求所有对于数据库的更新操作都是针对主数据库的,但是读操作是可以针对从数据库来进行。大多数站点的数据库读操作比写操作更加密集,而且查询条件相对复杂,数据库的大部分性能消耗在查询操作上了。主从复制数据是异步完成的,...转载 2018-07-08 16:37:34 · 1180 阅读 · 0 评论 -
Redis常见错误
转载:redis:CLUSTER cluster is down 解决方法:https://blog.youkuaiyun.com/qq_35066345/article/details/79833609集成redis集群错误:redis.clients.jedis.exceptions.JedisDataException: ERR This instance has cluster support...转载 2018-07-08 16:37:38 · 890 阅读 · 0 评论