
Hadoop实战
涉及基于Apache/CDH/HDP的大数据平台部署、运维、优化、开发等内容,包括各种分布式技术细节;
A叶子叶
大数据平台、数据仓库、数据分析/挖掘、应用开发、深度学习、爬虫
展开
-
文件ETL与验证
总结以往参与过的FTP服务器上,离线文本数据抽取的校验模板,涉及对文件的大小、条数、加密、列数等的校验规则;#!/bin/bash####################################################set enviorment## author=yzgexport LANG=en_USalias ls='ls --color=auto --time-style=local'src_path="/data/XX/put_file" log_fil.原创 2020-10-24 13:03:27 · 5534 阅读 · 1 评论 -
linux基础环境及CDH配置
新公司没有大数据平台,申请了虚拟环境,部署基于cdh的大数据平台,只保存操作步骤,详细的前面帖子有;1、做免密ssh-keygen -t rsachmod 700 .sshcd .sshtouch authorized_keyschmod 644 authorized_keys# copy多个机器的公钥vi id_rsa.pub # 写入keys文件后分发scp authorized_keys 10.191.247.46:/root/.sshscp authorized.原创 2020-07-14 11:27:26 · 5499 阅读 · 0 评论 -
Apache Hadoop部署(四):Hive/Hbase/Storm/Spark/Flink配置
目录Hive 配置配置启动和验证问题HBase 配置配置启动和验证问题Storm 配置配置启动和验证Spark (on yarn) 配置配置启动和验证问题Flink (on yarn) 配置配置启动和验证总结Hive 配置Hive是基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。Hive学习门槛较低,因为它提供了类似于关系数据库SQL语言的查询语言Hive QL..原创 2020-06-23 09:46:23 · 6262 阅读 · 1 评论 -
Apache Hadoop部署(三):HDFS/YARN/MR配置
目录Hadoop配置(非HA)配置Hadoop-env.shHdfsYarnMapReduceWorker文件启动和验证问题Hadoop配置(非HA)Hadoop是分布式的高可用批处理框架,CDH的Hadoop自带Hbase,Hive等其他组件,但Apache包仅带有分布式文件系统HDFS和资源调度Yarn,及批处理计算框架Mapred,其他组件如Hbase和Hive需要自己适配安装配置;Hadoop的版本为Apache Hadoop 3.0.3,将tar..原创 2020-06-23 09:21:27 · 5927 阅读 · 0 评论 -
Apache Hadoop部署(二):zookeeper和kafka配置
Zookeeper 配置Zookeeper为分布式协调组件,分布式协调技术主要用来解决分布式环境当中多个进程之间的同步控制,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果。配置直接解压Zookeeper压缩包/home/stream下,需要修改的配置文件在zk的conf目录下,复制zoo_sample.cfg 并改名:cp zoo_sample.cfg zoo.cfg,在zoo.cfg文件中的配置项如下:注:原生的conf目录中没有zoo.cfg Zoo.cfg的配置:#原创 2020-06-23 09:12:04 · 5513 阅读 · 0 评论 -
虚拟机部署Ambari + HDP 2.6.X 版本
HDP的部署同CDH类似,步骤分为ambari的部署和hdp的部署,先以1台为例(内存>6G,磁盘划分/至少40G,/data/10G),后续节点可以通过扩容方式加入集群,可参考:https://blog.youkuaiyun.com/qq_32593713/article/details/81429573原创 2020-04-13 14:48:20 · 5941 阅读 · 0 评论 -
虚拟机部署CDH的手册(CM + Cloudera Hadoop 6.1.0)
vm虚拟机内安装CM+CDH6.1.0,本机资源有限,教程先以1台为例,后续节点可以通过扩容方式加入,所以分为两个步骤:cm节点部署,和集群的扩容; 1、准备cm的rpm包,cdh的parcel包:cm的rpm包:https://archive.cloudera.com/cm6/6.1.0/redhat7/yum/RPMS/x86_64/cdh的parcels包:ht...原创 2020-04-09 16:55:44 · 6014 阅读 · 0 评论 -
分布式的理解学习
分布式的技术地图:原创 2019-10-21 14:36:57 · 5280 阅读 · 0 评论 -
Apache Hadoop部署(一):部署前的准备
大数据基础组件部署文档.. 1第一部分:基于Apache社区版部署.. 5节点及版本.. 5节点规划.. 5组件版本.. 6用户及环境准备.. 6用户及权限.. 6修改etc/hosts 6ssh免密登录.. 6关闭SELINUX及防火墙.. 7JDK安装.. 7Ansible工具安装.. 7Zookeeper 配置.. 8配置.. 8启动和...原创 2019-07-09 10:51:56 · 5585 阅读 · 0 评论 -
Hadoop大数据平台实践(二):Hadoop生态组件的学习文档
Hadoop基础组件学习-Yzg-2019-03-06Hadoop基础组件学习文档.. 1简介.. 4HDFS. 5HDFS读文件.. 6HDFS写文件.. 7Mapreduce 8单词计数.. 9数据去重.. 9单表关联.. 10多表关联.. 11Hadoop流.. 12Hadoop流的工作原理.. 13Hadoop流的命令.. 13Had...原创 2019-07-09 10:39:10 · 6414 阅读 · 1 评论 -
流式数据采集和计算(十二):交互工具zeppelin的配置使用
zeppelin官网定义为:数据摄取、数据分析、数据可视化的前端notebook工具,配置使用比较简单,本次直接配置在CDH环境上,使用zeppelin-0.7.3版本,鉴于zeppelin-0.8.1版本配置后sparkinterper无法使用(尚未解决); 1、下载安装包,解压; 2、修改配置文件:需要修改~/zeppelin...原创 2019-05-30 15:17:18 · 7980 阅读 · 2 评论 -
ELK组件学习:Elastic Search 概述(一)
中文手册:点击打开链接版权声明:本文为博主原创文章,未经博主允许不得转载。转载请务必加上原作者:铭毅天下,原文地址:blog.youkuaiyun.com/laoyang360 https://blog.youkuaiyun.com/wojiushiwo987/article/details/52244917目录(?)[+]题记:Elasticsearch研究有一段时间了,现特将Elasticsea...原创 2018-04-24 14:45:46 · 29431 阅读 · 2 评论 -
greenplum + pgsql和Hadoop+hive+hbase
在做的项目用的架构是greenplum+postgresql,第一次接触很陌生,其实我连hadoop+hive+hbase模式还没搞清楚,只能接触最基本的东西,下面是一个帖子的内容: A. Hadoop + Hive 支持新增节点,过程中不需要重启支持jdbc访问hive数据库支持sql的方式获取数据在技术过程中,数据是以批量的方式来执行。如果Hadoop集群中架设了t转载 2016-06-14 14:24:49 · 14214 阅读 · 0 评论 -
Hive和Hbase
一、Hive是在Hadoop和hdfs上的数据仓库工具,提供类SQL语句HQL,并利用hdfs的map/reduce对存储在hdfs中的数据进行操纵。二、hbase是一个列式数据库,也是利用Hadoop和hdfs系统的一个分布式数据库,它是非关系型数据库,但是与一般的非关系型数据库不采用表的结构不同,hbase也是以表位单位,但它是一个列式的。三、hive的处理延迟很大,hbase主要用户转载 2016-06-14 11:25:14 · 5771 阅读 · 0 评论