
大数据
文章平均质量分 95
韦晓阳
忘川,相忘回首已成川
展开
-
Ambari2.7.4集成Hue4.6.0
一、前言Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。二、版本信息Ambari:2.7.4HDP:3.1.4原创 2021-03-31 11:17:58 · 2281 阅读 · 0 评论 -
Redis Cluster搭建和开机自启设置
一、前言 redis最开始使用主从模式做集群,若master宕机需要手动配置slave转为master;后来为了高可用提出来哨兵模式,该模式下有一个哨兵监视master和slave,若master宕机可自动将slave转为master,但它也有一个问题,就是不能动态扩充;所以在3.x提出cluster集群模式。redis从3.0开始支持集群功能。redis集群采用无中心节点方式实现,无需proxy代理,客户端直接与redis集群的每个节点连接,根据同样的hash算法计算出key对应的s...原创 2021-03-31 09:35:47 · 1052 阅读 · 0 评论 -
Mysql Cluster 集群搭建和开机自启
一、前言MySQL的集群方案有很多,比如自带的MySQL Replication,官方的MySQL Fabirc、MySQL Cluster,还有三方的MMM、MHA等等,每个方案都是各自的优缺点,选型无非是要考虑高可用性、可伸缩性、负载均衡等等。二、介绍MySQL Cluster 是MySQL 官方集群部署方案,它的历史较久。支持通过自动分片支持读写扩展,通过实时备份冗余数据,是可用性最高的方案,声称可做到99.999%的可用性。MySQL NDB Cluster架构按照节点类型分为.原创 2020-09-29 10:10:21 · 1767 阅读 · 0 评论 -
DBeaver连接phoenix、hive
一、DBeaver介绍DBeaver dbeaver是免费和开源(GPL)为开发人员和数据库管理员通用数据库工具,是一个通用的数据库管理工具和 SQL 客户端。支持数据库: MySQL、Oracle、PostgreSQL、IBM DB2、Microsoft SQL Server、clickhouse、phoenix、hive、redis、Sybase、ODBC、Java DB (Derby)、Firebird (Interbase)、HSQLDB、SQLite、Mimer、H2、I...原创 2020-07-03 09:48:51 · 896 阅读 · 0 评论 -
MapReduce几种运行模式
mr job的几种运行模式1、在eclipse中开发好mr程序(windows或linux下都可以),然后打成jar包(wc.jar),上传到服务器 执行命令 hadoop jar wc.jar cn.itheima.hadoop.MainClassRunner 这种方式会将这个job提交到yarn集群上去运行 2、在Linux的eclipse中...原创 2018-08-24 08:36:40 · 650 阅读 · 0 评论 -
Hbase均衡Region和权限管理
查询Namespace为AMRCLOUD中名为powerdata的表的数据:scan 'AMRCLOUD:powerdata'查询某一条数据:get 't1', 'r1', {COLUMN => 'c1'}t1为表名,r1为rowkey,c1为column family 列出所有表:list列出所有Namespace:list_namespace创建Namesp...原创 2018-08-24 08:44:17 · 906 阅读 · 0 评论 -
不同集群Hbase数据库数据迁移
不同版本Hbase数据库数据迁移1、迁出hbase # 进入hdfs用户su hdfs #在hdfs上建立test临时目录hadoop fs -mkdir /test#进入hbase的bin目录下cd /usr/hdp/2.6.2.0-205/hbase/bin/ #用MR方法将hbase数据库t_userBehavior里的数据导入/test/t_userBeha...原创 2018-08-24 08:49:17 · 686 阅读 · 0 评论 -
Hadoop在eclipse上安装插件
1、下载1、首先从git下载源码https://github.com/winghc/hadoop2x-eclipse-plugin2、编译准备win7编译首先需要安装jdk、ant、Eclipse3、解压插件将插件hadoop2x-eclipse-plugin-master.zip解压到某个的目录。如:D:\ hadoop2x-eclipse-plugin-master...原创 2018-08-23 09:09:55 · 1698 阅读 · 0 评论 -
Hadoop namenode 数据恢复
hdfs的namenode元数据是存储在硬盘上的,但是断电可能会造成元数据丢失,发生数据丢失以后,可以采取以下方法对数据进行恢复。 先format namenode:hadoop namenode –format然后把SNameNode上的${SecondaryNameNode Checkpoint directories}路径下所有文件远程拷贝到NameNode的${NameNode...原创 2018-08-23 08:59:54 · 1318 阅读 · 0 评论 -
Ambari 配置邮箱告警
Ambari 配置告警配置Manage Notifications创建告警通知配置告警原创 2018-08-23 08:56:40 · 604 阅读 · 0 评论 -
Hbase主-从集群备份
三种方法实现HBASE主-从集群备份1、Export/Import通过Export导出数据到目标集群的hdfs,再在目标集群执行import导入数据,Export支持指定开始时间和结束时间,因此可以做增量备份,导出时可以指定version,starttime(时间戳),endtime(时间戳)等参数,并且可以通过-D指定是否压缩,指定caching等属性,比如:hbase org.ap...原创 2018-08-24 09:03:51 · 1409 阅读 · 0 评论 -
Hive调用自定义函数
要继承org.apache.hadoop.hive.ql.exec.UDF类实现evaluate自定义函数调用过程:1.添加jar包(在hive命令行里面执行)hive> add jar /root/NUDF.jar;2.创建临时函数hive> create temporary function getNation as 'cn.itcast.hive.udf.Na...原创 2018-08-24 09:10:02 · 1120 阅读 · 0 评论 -
Ambari启用HDP服务的自动重启/恢复?
作为群集管理员或群集操作员,您可以启用堆栈中的每个服务以自动重新启动。启用服务的自动启动会导致ambari-agent尝试在停止状态下重新启动服务组件,而无需用户手动操作。作为第一步,您应该为核心Hadoop服务中的工作节点,YARN和HDFS中的DataNode和NameNode组件启用自动启动。您还应该为SmartSense服务中的所有组件启用自动启动。启用自动启动后,在Ambari...原创 2019-06-17 19:06:53 · 4426 阅读 · 0 评论 -
kafka0.10.1 内置性能测试(生产者和消费者吞吐量测试)
1、使用kafka-run-class脚本测试生产者测试:kafka-run-class.sh:是kafka提供的测试Producer性能脚本,通过脚本,可以计算出Producer在一段时间内的平均延时和吞吐量。./kafka-run-class.sh org.apache.kafka.tools.ProducerPerformance --topic siger --num-rec...原创 2018-11-20 10:40:28 · 1404 阅读 · 0 评论 -
Ambari SmartSense原理
Hortonworks SmartSense工具(HST)用于收集群集诊断数据,用于协助支持案例故障排除和SmartSense分析。HST使用中央服务器守护程序和分布式的被动HST代理集。HST代理进程不是长期服务,仅在需要特定数据捕获任务时启动。一旦HST代理捕获了所请求的数据,该过程就会停止。HST代理捕获的所有数据都将发送到中央HST服务器,以合并为单个可下载的捆绑文件。然后...原创 2018-11-12 17:04:36 · 10144 阅读 · 3 评论 -
Ambari Metrics 原理
Ambari Metrics System 简称为 AMS,它主要为系统管理员提供了集群性能的监察功能。Metrics 一般分为 Cluster、Host 以及 Service 三个层级。Cluster 和 Host 级主要负责监察集群机器相关的性能,而 Service 级别则负责 Host Component 的性能。AMS 涉及的模块如下图所示:图 1. Ambari M...原创 2018-11-12 16:56:49 · 1208 阅读 · 0 评论 -
ambari心跳丢失Heartbeat Lost或者无法确认主机confirm hosts
第一种情况,心跳丢失:原因1:server或者agent更换ip或域名,导致服务无法检测修改ip或域名:vim /etc/ambari-agent/conf/ambari-agent.ini重启服务:ambari-agent restart原因2:openSSL兼容性有问题解决方法如下。第二种情况:ambari安装时无法确认主机confirm hosts...原创 2018-11-12 16:07:30 · 6782 阅读 · 1 评论 -
Ambari服务邮箱告警
1、登录ambari管理页面,找到Manage Notifications选项2、创建告警3、配置告警4、163邮箱授权码设置5、修改邮件标题(若没特殊需求,可忽略)下载 alert-templates.xml https://raw.githubusercontent.com/apache/ambari/branch-2.5/ambari-serve...原创 2018-11-05 16:50:41 · 1210 阅读 · 0 评论 -
Zookeeper的CancelledKeyException异常问题
项目中用到storm+kafka+zookeeper,在实际应用中zk和kafka常出问题,这里记录下在使用zk过程中的问题。注:zk版本是3.4.8,kafka是0.8.2.0。zk、storm和kafka都是运行在同一个集群的三台机器上。CancelledKeyException在开发环境测试的时候,一直没有问题,后来原样移植到测试环境下,zk总是出异常,导致kafka和storm...转载 2018-09-11 09:04:59 · 4317 阅读 · 1 评论 -
CenOS7下安装Thrift和rhbase--源码编译和yum安装
一、源码编译一、先搭建hbase集群和R环境安装hbase集群搭建步骤详见:https://mp.youkuaiyun.com/postedit/81698599R环境安装https://blog.youkuaiyun.com/qq_21153619/article/details/81386166二、rhbase安装安装环境依赖 yum install automake libtool ...原创 2018-09-03 18:18:31 · 1246 阅读 · 0 评论 -
rhbase的基本方法
rhbase基本方法#执行R脚本/usr/bin/Rscript ./rhbase.R #引入rhbase包library(rhbase)#连接数据库class(hb.init(host='172.8.10.142',port=9090))=='hb.client.connection'#创建表hb.new.table("test_rhbase","info")hb.ne...原创 2018-09-05 08:48:51 · 764 阅读 · 0 评论 -
Ambari配置namenode HA
NameNode High Availability配置在Ambari ui中, 选择Services > HDFS > Summary. 点击 Service Actions, 点击 Enable NameNode HA. 在Get Started 页面中, 输入一个 Nameservice ID然后点 Next.HA配置完后,就不用NameNode全域名而是用Na...原创 2018-08-23 08:53:07 · 2493 阅读 · 0 评论 -
CenOS7下Ambari版本更新
一 、准备1、备份ambari server数据库进入postgres,pg_dump ambari>ambari.sqlpg_dump ambarirca>ambarirca.sql 备份文件在yun5:/var/ambariBack下备份好ambari.properties配置文件(/etc/ambari-server/conf/ambari.prope...原创 2018-08-23 08:50:45 · 655 阅读 · 0 评论 -
CenOS7下Hive集群搭建
CentOS下hive(数据仓库工具)安装采取服务端与客户端分离模式在master上安装服务端在node1上安装客户端一、服务端安装1.输入 mkdir /usr/local/hive ,建立一个hive的目录2.将hive的tar包上传到建好的目录3.进入hive目录,输入 tar -zxvf apache-hive-0.13.0-bin.tar.gz 解压hi...原创 2018-08-15 09:56:47 · 7646 阅读 · 0 评论 -
CentOS7下Hbase1.2.4伪分布式搭建
CentOS下Hbase安装1.输入 http://hbase.apache.org/book.html#basic.prerequisites 进入Hbase官网查看应该使用的版本,因为hadoop不同版本,对Hbase的支持不同2.输入 mkdir /usr/local/hbase 建一个目录3.将hbase的tar包放到该目录下4.进入该目录,输入解压命令,解压该...原创 2018-08-15 09:50:36 · 1037 阅读 · 0 评论 -
CentOS7下Hbase1.2.4集群搭建
CentOS下Hbase完全分布式安装1. 在做这之前,也是需要修改hosts文件、主机名、系统时间,配置ssh免密登陆,并且安装配置好JDK和hadoop环境2.其他步骤参考Hbase单机版安装,以下总结的是与单机版不同的地方3.输入 mkdir /usr/local/hbase/logs 在hbase目录下新建一个log文件夹,用于存放日志文件4.进入/usr/local/...原创 2018-08-15 09:48:07 · 1054 阅读 · 0 评论 -
CenOS7下Haproxy1.7.8负载均衡搭建
1.首先放置jar包(源代码haproxy-1.7.8.tar.gz)目录 /usr/local/haproxy 2.解压目录 tar -xvf haproxy-1.7.8.tar.gz进入 haproxy-1.7.8 编译 make TARGET=linux2628 PREFIX=/usr/local/haproxy(需安装gcc不然...原创 2018-08-15 08:50:22 · 879 阅读 · 0 评论 -
CenOS7下Flume1.7.0数据采集框架搭建
一、Flume简介1.Flume是什么?是一个分布式框架。 是Cloudera提供的一个高可用的,高可靠的海量日志采集、聚合和传输的系统。 支持在日志系统中定制各类数据发送方,用于收集数据。 提供对数据进行简单处理,并写到各种数据接受方(可定制)。2.Flume的优点?采用ad-hoc方案,明显优点如下: 1.可靠的、可伸缩、可管理、可定制、高性能 2.声明式...原创 2018-08-15 08:23:46 · 456 阅读 · 0 评论 -
MongoDB高可用集群搭建(主从、分片、路由、安全验证)
目录一、环境准备1、部署图2、模块介绍3、服务器准备二、环境变量1、准备三台集群2、安装解压3、配置环境变量三、集群搭建1、新建配置目录2、修改配置文件3、分发其他节点4、批量启动5、创建配置服务器副本集四、集群测试1、启动路由服务器客户端2、插入数据3、验证主从5、web控制台(浏览器访问)1、登陆路由服务器2、...原创 2018-08-07 08:56:29 · 5478 阅读 · 1 评论 -
CenOS7.2下Azkaban2.5.0任务调度集群搭建
azkaban→工作流调度器一、Azkaban概述Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点:Web用户界面 方便上传工作流 方便设置任务之间的关系 调度工作流 认...原创 2018-08-11 07:59:25 · 584 阅读 · 0 评论 -
Centos7.2安装Ambari2.5.2+HDP2.6.2搭建Hadoop集群
ambari搭建步骤一、 环境准备1、主机准备192.168.1.61 knowyou-master.knowyou.com 192.168.1.62 knowyou-01.knowyou.com 192.168.1.71 knowyou-02.knowyou.com ...原创 2018-08-11 07:52:19 · 1090 阅读 · 0 评论 -
Linux下mono安装----源码编译安装和yum安装
storm的多语言接口调用C#,或者在linux下执行C#文件都需要mono环境,以下是mono的两种安装方案,个人推荐yum安装,因为源码编译安装有时环境变量加载不生效,看似mono安装正常,但是不识别C#脚本,,这就很痛苦第一种:源码编译1、安装mono依赖的各种组件yum -y install gcc gcc-c++ bison pkgconfig glib2-devel get...原创 2018-08-06 19:01:52 · 6882 阅读 · 3 评论 -
CenOS7下CM&CDH大数据平台搭建
目录 一、CM & CDH简介(***了解***)1.Apache Hadoop 不足之处2.CDH是什么?3.CDH的优点?4.CDH版本介绍(***了解***)5.CDH版本下载地址6.CDH支持的安装方式7.Cloudera Manager(CM)介绍8.为什么要学习CM?9.CM & CDH版本下载二、CM & CDH...原创 2018-08-10 08:43:32 · 4008 阅读 · 1 评论 -
CentOS7下mysql5.7.15安装
centOS7下mysql5.7.15安装下载rpm包,下载地址 http://dev.mysql.com/downloads/mysql/,选择Linux-Generic版本2.新建 /usr/local/mysql 文件夹,将4个rpm包上传到该目录3.到该目录下,输入命令 rpm -ivh mysql-community-common-5.7.15-1.el7.x86_64...原创 2018-08-17 08:42:34 · 685 阅读 · 0 评论 -
CentOS7下sqoop搭建
CentOS下sqoop安装1.在官网找到适合 hadoop2.X 的sqoop进行下载2.输入 mkdir /usr/local/sqoop 建立sqoop目录3.将下载好的tar包放到该目录4.进入该目录,输入解压命令,解压tar包5.输入 mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop1.4.6 修改文件名,这里不...原创 2018-08-20 10:15:43 · 2613 阅读 · 1 评论 -
CentOS7搭建spark2.1.0集群搭建
CentOS7搭建spark2.1.0完全分布式这里搭建的是3个节点的完全分布式,即1个master,2个worker,分别如下:CentOS-master master 192.168.11.128CentOS-node1 worker 192.168.11.131CentOS-node2 worker 192.168..11.132 1.三个...原创 2018-08-20 10:01:33 · 1467 阅读 · 0 评论 -
Kettle闪退问题
kettle Spoon.bat闪退解决办法 1、Java环境配置问题 java_home:D:\Program Files\Java\jdk1.7.0_25(安装jdk路径)classpath:.;%java_home%\lib\dt.jar;%java_home%\lib\tools.jarpath:在path路径中添加%java_home%\bin;%java_home%\...原创 2018-08-27 08:35:48 · 4130 阅读 · 2 评论 -
Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate
当我们做大数据开发的时候,无论是MapReduce、hbase还是hdfs在本地调试都需要hadoop环境,没有这个环境就会报错:Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe...原创 2018-08-17 13:50:00 · 2105 阅读 · 0 评论 -
CentOS7下Oracle安装
OracleLinux安装Oracle一、准备工作1.打开终端,输入命令 groupadd oinstall 创建用户组2.输入命令 groupadd dba 创建用户组dba3.输入命令 useradd -g oinstall -g dba -m oracle 创建oracle用户,并加入到oinstall和dba用户组4.输入命令 passwd oracle 设...原创 2018-08-17 09:20:31 · 23613 阅读 · 13 评论 -
CenOS7下Nginx集群搭建
nginx安装文档1.软件环境CentOS7 JDK1.8 redis3.2.82.安装依赖包输入yum -y install pcre-develyum -y install openssl-develyum -y install gccyum -y install lrzszyum -y install openssh-clients或者输入yum...原创 2018-08-17 08:48:44 · 17669 阅读 · 1 评论