
Hadoop
冬瓜螺旋雪碧
时间的加速度
展开
-
zookeeper集群搭建
zookeeper集群搭建过程小记zookeeper集群搭建相对来说比较简单和容易实现。环境:阿里云主机系统:Centos7.2zookeeper:zookeeper-3.4.6.tar.gzjdk:jdk1.8.0_45一,安装好jdk(默认已安装好),并上传zookeeper安装包至software目录下或者直接利用wget命令下载wget https://www.apach...原创 2019-08-20 13:48:53 · 149 阅读 · 0 评论 -
Hadoop HA集群搭建
此次安装选用的是阿里云三台ECS按量付费机器一,版本二,主机规划三,环境准备原创 2019-08-20 15:34:58 · 731 阅读 · 0 评论 -
Hadoop HA架构图原理
HDFS(HA): 分为NameNode和DataNode,master/slave架构NameNode:存放HDFS的元数据,由FsImage和EditLog组成FSImage:存放 BlockId,文件权限,文件目录EditLog:存放对HDFS的操作记录HA 目的:hdfs只有一个NameNode节点是,当namenode宕机后,整个hdfs也都无法使用了。为了解决NameNode...原创 2019-08-20 18:55:05 · 1784 阅读 · 0 评论 -
idea 本地运行hdfs程序
本地开发IDEA 开发hdfs api1.先下载window环境编译好的Hadoop安装包,到安装目录下注意一定得要有(winutils.exe)这个文件下载地址:https://pan.baidu.com/s/1tcwFOjbQJlFKR-t5S_wxxw2.跟配置jdk环境变量一样配置Hadoop的环境变量HADOOP_HOMED:\XXX\hadoop-2.6.1\PATH #...原创 2019-08-25 18:51:34 · 973 阅读 · 0 评论 -
HDFS Block损坏恢复实践
文章目录一,介绍:二,实践三,修复①hdfs debug 手动修复(推荐)②手动修复二③自动修复四总结一,介绍:①:hdfs fsck /path检查path中文件的健康状况②:hdfs fsck /path -files -blocks -locations打印文件块的位置信息(-locations) 需要和-files -blocks一起使用③:hdfs fsck /path -l...原创 2019-08-21 15:58:27 · 1261 阅读 · 0 评论 -
MapReduce作业提交源码分析
MapReduce原理图job提交初步源码中主要方法提炼boolean res = job.waitForCompletion(true);waitForCompletion{ submit(){ connect(); // 其实就是为了拿到一个cluster(Local YARN) submitJobInternal(){ ...原创 2019-08-28 16:03:17 · 322 阅读 · 0 评论 -
hdfs api demo
工作中常用到的HDFS API操作package kzw.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import java.io.File;import java.io.FileInputStr...原创 2019-08-28 17:36:34 · 248 阅读 · 0 评论 -
CDH5.16.1 企业集群真正离线部署
离线部署主要分为三块:a.MySQL离线部署b.CM离线部署c.Parcel⽂件离线源部署一 准备下载源:CM:http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.16.1_x86_64.tar.gzParcel:http://archive.cloudera.com/cdh5/parcels/5.16...原创 2019-10-10 20:46:26 · 495 阅读 · 0 评论 -
Hive 求Top N
之前面试就碰到过hive求top n操作,当时回答简单的排序就OK,现在一回想简直可笑。这里用到hive,分析性函数,ROW_NUMBER总共有rank,row_number,dense_rank等,但是Row_number用的频率最高,这里这介绍Row_number语法:row_number() OVER (partition by COL1 order by COL2 desc ) r...原创 2019-07-22 19:05:21 · 937 阅读 · 0 评论 -
Hive解析Json,URL操作
在实际开发当中json 很常见的类型,hive处理json字符串成为目标的宽表。从json ===》 hive table ===》sql一,解析json先介绍下用到的hive 内置函数 json_tuple执行:desc function [extended] json_tuple;显示:json_tuple(jsonStr, p1, p2, ..., pn) like get_js...原创 2019-07-22 17:38:27 · 647 阅读 · 0 评论 -
将CSV,TXT文件数据导入到kudu(hive)
记一次将三十万条数据的CSV文件导入到生产环境的kudu数据库中因为是生产环境,自己也是小心翼翼,进行实践操作。思路还是简单的0,开始工作前,先将文件复制出来,保存为.txt文件,且用制表符作为分隔。1,先将文件上传到集群环境中,放在某个目录下。这里我放在/home2,将文件数据导入到hive中,建hive表create table kzw_mk_test( device_id...原创 2019-04-01 13:19:51 · 2263 阅读 · 3 评论 -
WARNING: The following tables are missing relevant table and/or column statistics.
impala 作为工具查询Kudu是一个很常见的方式,但是查询过程往往非常慢。按照SQL调优方案进行,使用 explain 发现有一个warning结合官网,找出解决好法子compute stats 表名;前后的性能差距能达到几十倍以上...原创 2019-06-06 15:21:12 · 2212 阅读 · 2 评论 -
备份kudu表数据(Kudu导入导出)
由于kudu修改hostname导致数据raft无法自动刷新,无法写入和修改所以需要做好备份。方法一:(在Hue中进行即可)1,利用impala进行备份,将Kudu表结构转化为impala表结构(其数据存储在hdfs中)提前建好impala表CREATE TABLE xxx1( id INT , ...原创 2019-06-04 20:28:23 · 5265 阅读 · 0 评论 -
YARN and MapReduce的【内存】优化配置详解
在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Containe...转载 2019-07-11 11:03:27 · 137 阅读 · 0 评论 -
Hive生产中常用的一些操作
一,Create Table1,拷贝表结构,不拷贝表数据create table newTable like oldTable;2,Create Table As Select (CTAS)create table newTable as select * from table二,Alter Table1,修改表名Alter Table oldTable rename to ne...原创 2019-07-18 15:06:05 · 202 阅读 · 0 评论 -
Yarn内存和CPU调优配置
Hadoop Yarn同时支持内存和CPU的两种资源的调度。yarn 作为一个资源调度器,应考虑集群中每一台机器的计算资源,然后根据application申请的资源进行分配Container(Yarn的组件 虚拟的概念 ),而Container是yarn里面资源分配的基本单位,具有一定的内存以及CPU资源。在yarn集群中,平衡内存,CPU,磁盘的资源很重要,每两个container使用一...原创 2019-07-16 17:37:48 · 1552 阅读 · 0 评论 -
Hive的复杂数据类型操作
Hive数据类型这里介绍 Array,Map,Struct。个人理解看来联系Java当中的相对应的数据类型学习会更容易理解。一,Array(存放的数据类型)①准备好一些数据,第一步建表和导入数据,注意这里建表和普通的建表稍微有些许的不同create table hive_array(name string,city_info array<string>)row format d...原创 2019-07-23 17:49:20 · 900 阅读 · 2 评论 -
hadoop编译
学习Hadoop系列,必不可少的就是自己编译一次Hadoop,同时也为后期学习支持文件压缩做好准备。本次编译的版本为 hadoop-2.6.0-cdh5.7.0 ,从官网下载好源码和需要的工具等一,准备好工具,并上传至Linux software目录下#先安装好上传文件的命令 rzyum install lrzsz-rw-r--r-- 1 root root 8491533 Jul...原创 2019-08-02 19:10:24 · 277 阅读 · 0 评论 -
yarn启动失败原因
今天在做mapReduce 的学习开发时候,当我用start-yarn.sh启动yarn集群的时候一直都是启动失败,上网查了很久都说是yarn-site.xml 问题,自己核对了好几遍都没有找到问题,最后不得已一个一个核对,才发现问题,所以,就必须得记录一下,这一个巨大的坑。我的配置如下:在这里插入代码片&lt;property&gt; &lt;name&gt;yarn.resourcema...原创 2018-11-03 12:54:57 · 9262 阅读 · 0 评论