
大数据-hadoop
文章平均质量分 68
hadoop
根哥的博客
big world needs big-data-manager !
展开
-
Doris 安装使用
【代码】Doris 安装使用。原创 2024-12-31 18:01:58 · 424 阅读 · 0 评论 -
kafka 集群迁移:topic元数据备份,查看所有topic的消费积压
【代码】kafka 集群迁移:topic原数据备份。原创 2024-08-15 16:42:12 · 493 阅读 · 0 评论 -
hadoop ha集群搭建
hadoopha集群搭建。原创 2022-07-25 10:12:25 · 465 阅读 · 0 评论 -
sqoop:数据转换工具
要点如下:安装配置 关系型数据库<-->hadoop类型数据:互相转换 使用 sqoop job#测试jdbc连接sqoop list-databases --connect 'jdbc:mysql://localhost:3306' --username 'root' --password 123456#查询jdbc数据sqoop eval --connect j...原创 2018-08-20 20:24:43 · 1877 阅读 · 0 评论 -
map-reduce实现(map端join, reduce端join)
map-reduce实现hive的join全外连接查询 (大表 +小表 )假设有订单表orders, 用户表customers, 存在大表+小表的关系, 则可以使用sql的优化: 使用map端join现在的问题是, 如何使用map-reduce 自己实现: map端的 full outer join ? reduce端的full outer join ?part1: map端...原创 2018-09-24 09:07:17 · 1184 阅读 · 0 评论 -
map-reduce(job提交过程,远程调试)
mapreduce 的job远程调试 mapreduce的job提交、运行过程part1: mapreduce 的远程调试继续上一篇博客的 map-reduce实现map端join, 部署到集群后如何调试?第一步:server端配置(hadoop文件)1, 要打包项目module为jar包, 上传到hdsf (此处我使用ubuntu , jar包放在家目录下),2, 再配...原创 2018-09-24 12:23:13 · 709 阅读 · 0 评论 -
sqoop实现类理解:抽数到hbase
1, 官网指南a, 获取源码http://sqoop.apache.org/docs/1.4.7/SqoopDevGuide.html -->git源码:https://git-wip-us.apache.org/repos/asf/sqoop.gitb, sqoop抽数到hbase的实现逻辑http://sqoop.apache.org/docs/1.4.7/SqoopDevG...原创 2019-12-30 22:41:47 · 701 阅读 · 0 评论 -
scala: 操作hdfs,mapreduce
scala是构建在java之上的脚本化语言,而hadoop的底层也是java代码,所以用java写mapreduce是最合适的,而scala是怎样的呢?因为scala是推荐不加类型声明的, 如val a=“hello”, 但是在hadoop的mapreduce接口中,都有泛型要求,这就像要一个speak English 的老外 ,叫他去学chiness一样,是不太友好的!下面是具体探究过程:...原创 2018-10-30 19:54:14 · 1609 阅读 · 0 评论 -
hadoop初步介绍:hdfs分布存储+ mr分布计算
hdfs 和RDBMS区别mr 和 网格计算,志愿计算1,数据存储磁盘存储解决分布式问题硬件需求系统瓶颈hdfs磁盘阵列-集群硬件故障,多数据源的数据准确性普通机数据传输:硬盘带宽RDBMS单磁盘专业服务器磁盘寻址:大量数据更新2,分析计算适用场特点生态圈结构特点数据完整性可扩展性数据集结构化程度mr...原创 2018-10-20 19:05:57 · 840 阅读 · 0 评论 -
yarn: 资源调度机制
参考书籍《深入理解mapreduce架构设计与实现原理》理解yarn工作流程: yarn–&amp;amp;amp;amp;gt;appMaster–&amp;amp;amp;amp;gt;管理jobpart1: yarn启动appMasterpart2: appMaster管理job原创 2018-10-14 13:31:21 · 1430 阅读 · 1 评论 -
flume:日志收集工具
多路复用: 一个 source ----->多个 (channel----sink) 故障切换: 一个(source ---channel) ---->一个sink组(多个sink ) 常用sink配置: hdfs,hive,hbase多路复用: ( Multiplexing the flow )官方解释为:一个source的数据...原创 2018-09-08 13:51:33 · 1581 阅读 · 0 评论 -
zookpeer: ha配置
要点如下:zookeeper集群搭建 hdfs高可用(hdfs + zookeeper: zk管理namenode, 实现failover机制 ) 修改start-dfs.sh : 使得zk集群---- 先于 ---hdfs启动 hdfs集群“热备份”(zk + hdfs =ha)ha具体配置文件/etc/hosts192.168.56.111 s101192....原创 2018-08-07 22:09:56 · 631 阅读 · 0 评论 -
hadoop集群搭建篇(伪分布,完全分布)
要点如下:1,服务器搭建: virtualBox + Centos7 2, centos7: 网络配置 3,centos 上安装jdk, hadoop第一步: 安装centos, 配置网络我使用ubuntu16 桌面版, 安装virtualbox后,创建虚拟机: 添加centos7镜像文件点击 ‘start’, 开始安装centos7....安装完成后, 需要关机,c...............原创 2018-08-01 22:13:02 · 3216 阅读 · 0 评论 -
hadoop启动脚本篇
要点如下:脚本之间调用关系 脚本的具体内容hadoop启动脚本之间的调用关系:脚本的具体内容(简化后)1,start- all.sh# start hdfs daemons if hdfs is present "${HADOOP_HDFS_HOME}"/sbin/start-dfs.sh --config $HADOOP_CONF_DIR# start yarn...原创 2018-08-04 11:50:04 · 1233 阅读 · 0 评论