- 博客(216)
- 资源 (3)
- 收藏
- 关注
转载 使用ogg同步数据给kafka
为更好的配合公司自然人项目的实施,我利用虚机搭了一个测试环境,把生产库中的部分表的数据通过ogg软件同步给kafka1 测试环境说明1)目标源数据库hr用户下的一张表t1,当发生dml操作时,操作数据写到kafka集群里,并显示出来。2)环境构成192.168.60.88 tdb1192.168.60.89 reps192.168.60.91 kafka0119
2017-06-20 14:55:31
25897
3
原创 Linux创建用户后,切换用户报This account is currently not available
Linux创建用户后,切换用户报This account is currently not availablea. 增加用户&设定密码# useradd nagios# passwd nagios 输入密码;切换用户出现:[root@localhost ~]# su - nagiosThis account is currently
2017-05-31 13:27:27
2575
原创 CDH 问题
文件系统检查点已有 1 天,14 小时,36 分钟。占配置检查点期限 1 小时的 3,860.33%。 临界阈值:400.00%。 自上个文件系统检查点以来已发生 14,632 个事务。 2个可能; 1 , namenode的Cluster ID 与 secondnamenode的Cluster ID 不一致,对比/dfs/nn/current/VERSION 和/dfs/snn/curr
2017-05-31 11:29:56
4027
转载 KUDU - Cloudera开发的又一个Hadoop系存储系统
作者:刘旭晖 Raymond 转载请注明出处 原文: http://blog.youkuaiyun.com/colorant/article/details/50803226?utm_source=tuicool&utm_medium=referral ## == 是什么 == Kudu 是 Todd Lipcon @ Cloudera 带头开发的存储系统,其整体应用模式和HBa
2017-05-12 11:19:10
869
转载 Kudu:支持快速分析的新型Hadoop存储系统
Kudu 是 Cloudera 开源的新型列式存储系统,是 Apache Hadoop 生态圈的新成员之一( incubating ),专门为了对快速变化的数据进行快速的分析,填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景,以及架构进行简单介绍。背景——功能上的空白 Hadoop 生态系统有很多组件,每一个组件有不同的功能。在现实场景中,用
2017-05-11 17:23:23
4847
1
转载 ERROR 1819 (HY000): Your password does not satisfy the current policy requirements
为了加强安全性,MySQL5.7为root用户随机生成了一个密码,在error log中,关于error log的位置,如果安装的是RPM包,则默认是/var/log/mysqld.log。一般可通过log_error设置mysql> select @@log_error;+---------------------+| @@log_error |+---
2017-05-04 14:09:40
806
转载 MySQL5.7安装与配置(YUM)
原文链接:http://blog.youkuaiyun.com/xyang81/article/details/51759200安装环境:CentOS7 64位,MySQL5.71、配置YUM源在MySQL官网中下载YUM源rpm安装包:http://dev.mysql.com/downloads/repo/yum/ # 下载mysql源安装包shell> wget http:/
2017-05-04 10:55:58
415
转载 linux中文件颜色,蓝色,白色等各自代表的含义
linux中文件颜色,蓝色,白色等各自代表的含义 绿色文件---------- 可执行文件,可执行的程序 红色文件-----------压缩文件或者包文件 蓝色文件----------目录 www.2cto.com 白色文件----------一般性文件,如文本文件,配置文件,源码文件等 浅蓝色文件-----
2017-05-04 10:27:34
15067
转载 Linux查看物理CPU个数、核数、逻辑CPU个数
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo| grep "cpu cores
2017-05-03 09:50:05
341
转载 Elasticsearch5.0 安装问题集锦
elasticsearch 5.0 安装过程中遇到了一些问题,通过查找资料几乎都解决掉了,这里简单记录一下 ,供以后查阅参考,也希望可以帮助遇到同样问题的你。问题一:警告提示[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to install syscall filter: java.lang.Unsupported
2017-05-01 21:26:10
430
原创 Maven中使用本地JAR包
在Maven项目中使用本地JAR包有两种方法:1. 使用system scope org.richard my-jar 1.0 system ${project.basedir}/lib/my-jar.jar 缺点:ystem scope引入的包,在使用jar-with-
2017-04-22 11:21:38
740
转载 windows 安装VisualSVN-Server并设置域验证
windows下安装VisualSVN-Server-2.7.7默认安装完成之后权限是默认使用本地svn验证的,也就是所有的用户名 密码都需要手动建立,如果是在域环境下就非常不方便了,下面就是添加域认证方法,右键——选择“properties”——选择“authentication”。设置成功之后本地的Users Guours
2017-04-19 15:41:35
6033
1
转载 Kafka到Hdfs的数据Pipeline整理
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下1> Kafka -> Flume –> Hadoop Hdfs常用方案,基于配置,需要注意hdfs小文件性能等问题.GitHub地址: https://github.com/apache/f
2017-03-06 16:14:36
3220
转载 apache kafka监控系列-KafkaOffsetMonitor
概览最近kafka server消息服务上线了,基于jmx指标参数也写到zabbix中了,但总觉得缺少点什么东西,可视化可操作的界面。zabbix中数据比较分散,不能集中看整个集群情况。或者一个cluster中broker列表,自己写web-console比较耗时耗力,用原型工具画了一些管理界面东西,关键自己也不前端方面技术,这方面比较薄弱。这不开源社区提供了kafka的web管理平台Ka
2017-03-06 14:47:11
1073
1
转载 浅析hive严格模式(strict mode)
在hive中提供了一种“严格模式”的设置来阻止用户执行可能会带来未知不好影响的查询。 设置属性hive.mapred.mode 为strict能够阻止以下三种类型的查询:1、 除非在where语段中包含了分区过滤,否则不能查询分区了的表。这是因为分区表通常保存的数据量都比较大,没有限定分区查询会扫描所有分区,耗费很多资源。Table: logs(…) parti
2017-02-28 16:55:17
1132
转载 Lateral View语法
描述lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。 例子假设我们有一张表pageAds,它有两列数据,第一列
2017-02-28 15:43:06
29926
转载 Hive中Order by和Sort by的区别是什么?
Hive基于HADOOP来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件,这导致了在HADOOP环境下很难对数据进行全局排序,如果在HADOOP上进行order by全排序,会导致所有的数据集中在一台reducer节点上,然后进行排序,这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败
2017-02-28 15:13:45
2321
转载 Hadoop之——机架感知配置
1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架的节点上找到数据。为了降低整体的带宽消耗和读取延时,HDFS会尽量让读取程
2017-02-27 14:33:32
560
转载 使用Intellij IDEA构建spark开发环境
近期开始研究学习spark,开发环境有多种,由于习惯使用STS的maven项目,但是按照许多资料的方法尝试以后并没有成功,也可能是我环境问题;也可以是用scala中自带的eclipse,但是不太习惯,听说支持也不太好,好多问题;咨询一些人后说,IDEA对scala的支持比较好。所以尝试使用IDEA来构建Spark开发环境; 1. 安装JDK2. 安装IDEA最新版,目前
2017-02-27 10:08:41
563
转载 Flume的可靠性保证:故障转移、负载均衡
官网的配置 : https://flume.apache.org/FlumeUserGuide.htmlFlume的一些组件(如Spooling Directory Source、File Channel)能够保证agent挂掉后不丢失数据。1、负载均衡1)Load balancing Sink Processorsource里的event流经channel,进入sink组,在si
2017-02-26 08:48:22
1605
转载 HIVE中MAPJOIN可以使用的场景分析
最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,Hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,MAP
2017-02-23 20:49:51
605
原创 彻底删除Kafka中的topic
1、删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录2、Kafka 删除topic的命令是: ./bin/kafka-topics --delete --zookeeper 【zookeeper server】 --topic 【topic name】 如
2017-02-17 16:21:02
903
转载 【hadoop】——压缩工具比较
文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式,我们看一个表格:DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法,源代码可以在zlib库中找到。gzip是以DEF
2017-02-17 14:32:23
593
转载 Kafka简介
一、为什么需要消息系统1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3.扩展性
2017-02-14 10:31:36
519
转载 Hive教程之metastore的三种模式
http://www.micmiu.com/bigdata/hive/hive-metastore-config/
2017-02-11 11:01:29
1037
原创 MapReduce中的map个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。公式:InputSplit=Math.max(minSize, Math.min(maxSize, blockSize)影响map个数(split个数)的主要因素有:mapreduce.input.fileinputformat.split.minsize 默认值 0
2017-02-08 15:27:18
978
转载 MapReduce相关参数
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce Job
2017-02-06 16:39:21
1464
转载 hadoop集群balance工具详解
在线上的Hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。 1) hadoop balance工具的用法:[html] view plain copy
2017-02-02 21:10:23
1085
原创 Hbase性能调优
1、zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:这个t
2017-01-20 16:03:47
796
原创 java 集成LogBack
Logback是由log4j创始人设计的又一个开源日志组件。 logback当前分成三个模块:logback-core,logback- classic和logback-access。 logback-core是其它两个模块的基础模块。 logback-classic是log4j的一个
2017-01-12 14:51:32
947
转载 从Log4j迁移到LogBack的理由
无论从设计上还是实现上,Logback相对log4j而言有了相对多的改进。不过尽管难以一一细数,这里还是列举部分理由为什么选择logback而不是log4j。牢记logback与log4j在概念上面是很相似的,它们都是有同一群开发者建立。所以如果你已经对log4j很熟悉,你也可以很快上手logback。如果你喜欢使用log4j,你也许会迷上使用logback。更快的执行速度基于我们先前在l
2017-01-12 14:41:15
327
原创 maven 下载repository太慢
1、 进入 maven/conf/路径下2、 打开setting.xml 文件,在 中添加如下内容: alimaven aliyun maven http://maven.aliyun.com/nexus/content/groups/public/ central 3. 重启eclipse
2017-01-10 11:21:23
2526
原创 Sqoop2——导入关系型数据库数据到HDFS上
启动sqoop2-1.99.4版本客户端:$SQOOP2_HOME/bin/sqoop.sh client set server --host hadoop000 --port 12000 --webapp sqoop 查看所有connector:show connector --all2 connector(s) to show:
2017-01-05 17:03:52
3208
原创 sqoop2安装
1. 解压$tar -zxvf sqoop-1.99.6-bin-hadoop200.tar.gz$cd sqoop-1.99.6-bin-hadoop200$pwd/home/clohadoop/sqoop-1.99.6-bin-hadoop2002. 设置环境变量$cd /home/clohahaoop$pwd /home/clohadoop$vi .bash_pr
2017-01-05 16:46:33
745
转载 HBase 常用Shell命令
留一个备查~进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)>whoami
2017-01-05 15:11:18
442
转载 HBase RowKey设计
1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowke
2016-12-28 10:20:48
1792
转载 Guava-Filter
Filter我们先创建一个简单的Person类。Person.java12345678910111213141516171819202122232425public class Person { public String getName() { return name;
2016-12-27 14:57:50
522
转载 hbase的rowkey的字典排序(三维有序)
hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。1.rowkey,我们知道rowkey是行的主键,而且hbase只能用个rowkey,或者一个rowkey范围即scan来查找数据。所以 rowkey的设计是至关重要的,关系到你应用层的查询效率。我们知道
2016-12-21 16:03:34
4620
2
转载 Hadoop map和reduce的个数
1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定?一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的goalSize = totalSize / mapred
2016-12-15 15:52:17
462
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人