
大数据运维
文章平均质量分 92
eric_lee
技术改变生活,热爱技术qq:1193279880
展开
-
获取时间区间的每天日期
#!/bin/bashdate1="$1"date2="$2"echo "date1: $date1"echo "date2: $date2"tempdate=`date -d "-0 day $date1" +%Y%m%d`enddate=`date -d "-0 day $date2" +%F`tempdateSec=`date -d "-0 day $da原创 2018-10-26 18:17:03 · 918 阅读 · 0 评论 -
解决flume1.6中因cdh重启等导致的hdfs文件未关闭问题
flume源码修改部分,修改BucketWriter .java/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work原创 2018-01-08 11:28:58 · 2751 阅读 · 0 评论 -
Kylin 安装以及spark cube 的创建
一. 准备 下载kylin安装包 http://www.apache.org/dyn/closer.cgi/kylin/apache-kylin-2.2.0/apache-kylin-2.2.0-bin-hbase1x.tar.gz二. 环境 1. Hadoop: 2.7+ Hive: 0.13 - 1.2.1+ HBase: 0.98 - 0.99, 1.1+ J转载 2018-01-16 17:24:07 · 323 阅读 · 0 评论 -
一文读懂Apache Kylin
感谢分享。http://www.jianshu.com/p/abd5e90ab051?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation“麒麟出没,必有祥瑞。”Kylin思维导图前言随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸转载 2018-01-16 11:31:13 · 6896 阅读 · 0 评论 -
kylin2.1.0+cdh5.10.1+安装部署+官方测试例子详细教程
CDH环境下kylin的安装教程 1.软件版本介绍: cdh5.10.1Kylin: 2.1.0 2.环境检查 环境中需要启动的角色: Hive Metastore Serveryarn的JobHistory Server3.正式安装3.1 kylin2.1.0下载软件http://mir转载 2018-01-16 11:19:01 · 432 阅读 · 0 评论 -
工作流调度引擎---Oozie
工作流调度引擎---OozieOozie使用教程一. Oozie简介Apache Oozie是用于Hadoop平台的一种工作流调度引擎。作用- 统一调度hadoop系统中常见的mr任务启动hdfs操作、shell调度、hive操作等。- 使得复杂的依赖关系时间触发事件触发使用xml语言进行表达开发效率提高。- 一组任务使用一个DAG来表示,使用图形表达流转载 2018-01-05 12:15:52 · 813 阅读 · 1 评论 -
基于CDH 5.9.1 搭建 Hive on Spark 及相关配置和调优
Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差与Spark。通过搭建一个Hive On Spark可以修改Hive底层的计算引擎,将MapReduce替换成Spark,从而大幅度提升计算速度。接下来就如何搭建Hive On Spark展开描述。 注转载 2018-01-05 12:11:16 · 4630 阅读 · 1 评论 -
CDH管理界面查看各框架的版本(hive为例)
安装好的CDH如果查看hive的版本呢,1、官网2、管理界面中官网查看一般看到的都是CDH系统默认自带的版本,如果你的CDH在运行的过程中升级过,那再参考官网的版本就会出现错误。参考:http://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_mave转载 2018-01-05 12:05:26 · 10765 阅读 · 0 评论 -
用python编写daemon监控进程并自动恢复(附Shell版)
因为hadoop集群中datanode是大量存在的,那么多机器,什么事都可能发生,最通常的大概就是进程挂掉了。所以为了省事,参考别人的代码写了这个监控进程的daemon。当然,稍加修改就可以用来监控别的必须常驻的进程。只需start,不用后面跟&或者前面加nohup。其实很多人都对进程挂掉很头疼,没事半夜得爬起来上服务器启动进程是一件非常痛苦的事情。每2秒监测一次进转载 2014-02-19 18:35:50 · 592 阅读 · 0 评论 -
Python连接Redis连接配置
系统环境:OS:Oracle Linux Enterprise 5.6redis:redis-2.6.8python:Python-2.7.3redis的python包版本:redis-2.7.2.tar 前提条件:1.确保Redis已成功安装并且正确配置,参考文档主从复制文档:http://blog.youkuaiyun.com/lic转载 2014-02-24 10:59:02 · 1339 阅读 · 0 评论 -
Apache下配置虚拟主机总结
在linux下linux下面创建IP地址的方法Linux的hosts文件在 /etc/目录下 可以用VI编辑器编辑其他的均相同 2.基于主机名的虚拟主机步骤步骤:基于主机名不需要添加IP地址但仍需要添加IP地址与域名对应关系设置成:修改apache配置文件htdocs: 将Include conf/extra/httpd转载 2014-07-21 18:10:00 · 487 阅读 · 0 评论 -
hive on spark的坑
装了一个多星期的hive on spark 遇到了许多坑。还是写一篇随笔,免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下,这里说的Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。先看官网的资源Hive on Spark: Getting Started要想在Hive中使转载 2018-01-08 13:31:27 · 1098 阅读 · 0 评论 -
Hive on Spark安装配置详解(都是坑啊)
简介本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。背景Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于Ma转载 2018-01-08 13:42:06 · 4992 阅读 · 0 评论 -
Linux搭建Hive On Spark环境(spark-1.6.3-without-hive+hadoop2.8.0+hive2.1.1)
概述1各个机器安装概况2下载和解压缩各种包3配置环境变量4修改hostname文件 4.1在3台机器上执行hostname命令 4.2编辑hosts文件5 Hadoop的安装和启动 5.1设置ssh免密码登录 5.2 创建一堆目录 5.3转载 2018-01-08 13:47:16 · 2644 阅读 · 1 评论 -
Druid单机的安装和测试
1、环境信息 2、安装zookeeper 3、安装druid 4、启动druid 5、验证druid 6、遇到的吭1、环境信息 Centos6.5 32GB 8C Zookeeper 3.4.5 Druid 0.9.22、安装zookeepertar -xzf zookeeper-3.4.6.tar.gzcd zookeeper-3.4.6cp conf/zoo_sample.cfg conf...转载 2018-04-17 19:37:07 · 1016 阅读 · 0 评论 -
apache hadoop2.7 安装
总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs、mapreduce等主从关系。1、环境,3台CentOS7,64位,Hadoop2.7需要64位Linux,CentOS7 Minimal的ISO文件只有600M,操作系统十几分钟就可以安装完成,Master 192.168.0.182 Slave1 192.168.0.183 ...转载 2018-03-13 19:39:46 · 432 阅读 · 0 评论 -
Kafka-manager部署
一、概念 概念百度了一下,可以根据相关资料进行理解。1.1 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。BrokerKafka集群包含一个或多个服务器,这种服务器被称为broker。 Topic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个...转载 2018-03-01 16:32:10 · 332 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服转载 2018-01-20 21:59:52 · 750 阅读 · 0 评论 -
大数据常见错误解决方案(转载)
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j转载 2018-01-10 09:42:38 · 3694 阅读 · 0 评论 -
Apache Kylin Cube优化
Kylin 构建Cube时优化方法如下:1. Hierarchy(层级) Dimensions优化在Fact table(事实表)中的维度满足层级关系时定义这几个维度为Hierarchy。一些列具有层次关系的Dimension组成一个Hierarchy,比如年,月,日组成了一个Hierarchy。查询时指定group by year ; group by year ,转载 2018-01-17 11:52:31 · 186 阅读 · 0 评论 -
CDH 中组件升级问题(hive为例)
下面是一个例子,仅供参考:基于CM搭建的CDH集群之hive组件升级过程(hive0.13.1升级到hive-1.2.1且确保纳入CM管理)1、在hive0.13.1版本下创建lib121目录[Bash shell] 纯文本查看 复制代码?1cd/opt/cloudera/parcels/CDH/lib/h转载 2018-01-08 14:18:50 · 4422 阅读 · 0 评论 -
Linux安装Sqoop(CentOS7+Sqoop1.4.6+Hadoop2.8.0+Hive2.1.1)
1下载Sqoop2上载和解压缩3一系列配置 3.1配置环境变量 3.2sqoop配置文件修改 3.2.1 sqoop-env.sh文件 3.2.1.1新建 3.转载 2018-01-08 14:00:06 · 393 阅读 · 0 评论 -
基于Spark 2.0.0搭建Hive on Spark环境
一、运行环境CentOS 7.2Hadoop 2.7Hive 2.2.0Spark 2.0.0JDK 1.7Scala 2.11.8Maven 3.3.9说明:Scala 2.11.8以后的版本只支持JDK1.8,如果环境原本是使用JDK1.7的就不需要安装最新版本。二、开始配置前的排坑很多人都会参考Hiv转载 2018-01-08 13:56:26 · 660 阅读 · 0 评论 -
Linux安装Sqoop(CentOS7+Sqoop1.4.6+Hadoop2.8.0+Hive2.1.1)
一、运行环境CentOS 7.2Hadoop 2.7Hive 2.2.0Spark 2.0.0JDK 1.7Scala 2.11.8Maven 3.3.9说明:Scala 2.11.8以后的版本只支持JDK1.8,如果环境原本是使用JDK1.7的就不需要安装最新版本。二、开始配置前的排坑很多人都会参考Hiv转载 2018-01-08 13:55:36 · 239 阅读 · 0 评论 -
Druid部署总结
druid部署转载 2018-01-12 16:35:19 · 3733 阅读 · 0 评论 -
caravel连接druid
druid caravel转载 2018-01-12 10:19:30 · 222 阅读 · 0 评论 -
有用的Linux工具和命令
linux shell转载 2018-01-03 09:16:27 · 230 阅读 · 0 评论 -
Linux下Apache整合Resin
1)Apache安装# tar zxvf httpd-2.2.8.tar.gz# cd httpd-2.2.8 # ./configure --prefix=/usr/local/apache2 --enable-modules=so --enable-so --prefix 用来指定路径--enable-modules用来指定系统允许使用的功能扩展模块的类型,这里指定为so转载 2014-03-28 17:39:51 · 460 阅读 · 0 评论 -
shell for
#!/usr/bin/ksh#数字段形式for i in {1..10}do echo $idone#详细列出(字符且项数不多)for File in 1 2 3 4 5 do echo $File done #对存在的文件进行循环for shname in `ls *.sh`do name=`echo "$s转载 2014-03-18 16:07:17 · 394 阅读 · 0 评论 -
linux grep 正则表达式
grep正则表达式元字符集: ^ 锚定行的开始 如:'^grep'匹配所有以grep开头的行。 $ 锚定行的结束 如:'grep$'匹配所有以grep结尾的行。 . 匹配一个非换行符的字符 如:'gr.p'匹配gr后接一个任意字符,然后是p。 * 匹配零个或多个先前字符 如:'*grep'匹配所有一个或多个空格后紧跟grep的行。 .*一起用代表任意字符。 [] 匹配一个指定范转载 2014-03-14 10:07:00 · 434 阅读 · 0 评论 -
linux常用命令
1、find+tartar cvjf file-cpp.tar.bz2 | find . -type f -name "*.cpp"或者find . -type f -name "*.cpp" | xargs tar zcvpf backup.tar.gz2、文件内容替换find $1 -name "$FILENAME" -type f -exec echo {}原创 2014-01-14 09:22:37 · 516 阅读 · 0 评论 -
VMware 虚拟机中添加新硬盘的方法
一、VMware新增磁盘的设置步骤(建议:在设置虚拟的时候,不要运行虚拟机的系统,不然添加了新的虚拟磁盘则要重启虚拟机)1、选择“VM”----“setting”并打开,将光标定位在hard Disk这一选项,然后点击下方的Add按钮2、点击next,执行下一个步骤 3、根据提示,创建一个虚拟的磁盘,并点击下一步 4、按照转载 2014-03-02 15:02:51 · 2705 阅读 · 0 评论 -
linux下如何升级Python
不用卸载,先试试命令:yum update python。 行了就OK。不行看下面: 先下载源码包,任意一个即可:(1)gzip-compressed源码:Python-2.5.4.tgz(2)bzip2-compressed源码:Python-2.5.4.tar.bz2 解压文件包:tar -zxvf Python-2.5.4.tgz (或者bzcat Pyt转载 2014-02-18 20:09:18 · 539 阅读 · 0 评论 -
linux 关闭selinux安全验证和iptables
1.5关闭selinux安全验证和iptables1.5.1关闭selinux安全验证$vi /etc/sysconfig/selinux修改SELINUX变量为disabledSELINUX=disabled使设置生效,不用重启机器$setenforce 01.5.2关闭iptables停止服务转载 2014-03-01 11:30:16 · 920 阅读 · 0 评论 -
redis文档
http://redis.readthedocs.org/en/latest/index.html转载 2014-02-26 20:20:18 · 475 阅读 · 0 评论 -
什么情况下适合使用Hbase
成熟的数据分析主题,查询模式已经确立并且不轻易改变传统的关系型数据库已经无法承受负荷,高速插入,大量读取适合海量的,但同时也是简单的操作(例如key-value)转载 2014-02-24 22:27:50 · 1239 阅读 · 0 评论 -
awk 用法
awk 用法:awk ' pattern {action} ' 变量名 含义 ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输入域分隔符,默认为一个空格 RS 输入记录分隔符 NF 当前记录里域个数 NR 到目前为止记录数 OFS 输出域分隔符 ORS 输出记录分隔符转载 2014-02-24 10:26:40 · 501 阅读 · 0 评论 -
linux下CVS服务器搭建
1、CVS服务器的安装 本文将主要基于Redhat Linux 下cvs服务器的安装配置,下载cvs安装软件 cvs-1.12.13.tar.bz2 # rpm -ivh cvs-1.12.13.tar.bz2 # cd rpm -ivh cvs-1.12.13 # ./configure # make # ma转载 2014-05-14 15:57:31 · 692 阅读 · 0 评论 -
Linux下apache httpd+tomcat整合步骤
1、准备,下载需要的文件。这里假定你已经正确安装配置好了JDK。到Apache官方网站下载所需要的文件:httpd-2.2.0.tar.gzapache-tomcat-5.5.12.tar.gzjakarta-tomcat-connectors-1.2.15-src.tar.gz其中httpd和jakarta-tomcat-connectors为源码包,apache-tomca转载 2014-05-16 15:55:05 · 450 阅读 · 0 评论 -
tomcat配置文件server.xml详解
元素名属性解释serverport指定一个端口,这个端口负责监听关闭tomcat 的请求shutdown指定向端口发送的命令字符串servicename指定service 的名字Connector ( 表示客户端和service之间的连转载 2014-05-16 15:53:32 · 394 阅读 · 0 评论