- 博客(66)
- 收藏
- 关注
原创 大数据开发资料大集合
https://blog.youkuaiyun.com/qq_43701760/article/details/89853420
2019-11-06 14:40:56
246
转载 Spark面试题
https://blog.youkuaiyun.com/Lwj879525930/article/details/82559596
2019-07-29 08:58:44
230
转载 hadoop面试100道收集(带答案)
https://blog.youkuaiyun.com/kingmax54212008/article/details/51257067
2019-07-24 10:26:26
509
转载 hive之经典sql面试题
https://blog.youkuaiyun.com/qq_41568597/article/details/84309503
2019-07-17 11:20:14
2280
1
转载 Hbase中的filter使用
https://blog.youkuaiyun.com/lr131425/article/details/72676254
2019-07-11 10:28:59
427
转载 大数据工程师(运维)面试系列
转载:https://blog.youkuaiyun.com/BlackEnn/article/details/53189854
2019-06-21 10:00:09
1652
原创 解决java.lang.SecurityException: Invalid signature file digest for Manifest main attributes(运行jar包时出现)
转载好文章:https://www.jianshu.com/p/cd1f1b33a41a
2019-06-13 15:14:04
684
转载 hive MapReduce详解
转载:https://blog.youkuaiyun.com/fanfan_gaolin/article/details/88576426
2019-06-12 15:37:45
1072
原创 sqoop集群的搭建
这篇博客理由sqoop版本的下载地址:https://www.jianshu.com/p/a088713ba26bsqoop集群的搭建转载:https://blog.youkuaiyun.com/qq_33247435/article/details/84316691转载第二篇:https://www.jianshu.com/p/a088713ba26bsqoop 连接mysql的各种错误...
2019-06-11 15:17:45
668
原创 Spark-2.2.0安装和部署(分布式集群搭建,亲测可用)
转载好文章(安装spark集群的前提一定要安装scala):https://blog.youkuaiyun.com/weixin_36394852/article/details/76030317注意:此命令只复制文件夹 目录下的内容,不直接将目录及内容复制到其他主机rsync -av /usr/scala-2.11.7/ SparkWorker2:/usr/scala-2.11.7/scp命令...
2019-06-06 17:06:04
398
转载 hive基础知识及性能优化(面试必备)
转载一:https://blog.youkuaiyun.com/u011331430/article/details/79038103转载二:https://blog.youkuaiyun.com/yu0_zhang0/article/details/81776459转载三:https://www.cnblogs.com/smartloli/p/4356660.html...
2019-06-05 13:54:57
486
转载 Hive的常用三种文件存储格式详解
转载:https://blog.youkuaiyun.com/qq_26442553/article/details/79313898三者的存储格式的压缩对比和查询速度对比):https://blog.youkuaiyun.com/qq_31807385/article/details/84796880
2019-06-05 08:58:29
952
转载 大数据处理基本过程
转载:https://blog.youkuaiyun.com/qq_39438729/article/details/80211531
2019-06-05 08:53:40
374
转载 大数据框架项目选型(Hadoop,Spark等5种)
转载链接:https://blog.youkuaiyun.com/yimingsilence/article/details/55517426
2019-06-03 08:55:05
406
转载 Spark学习一:初识spark(系统学习)
https://blog.youkuaiyun.com/wangzq2213/article/details/81034480
2019-05-31 09:20:47
491
转载 Scala基础语法大全总结(一)
转载:https://blog.youkuaiyun.com/qq_37142346/article/details/80977744
2019-05-30 18:08:51
251
转载 什么是sqoop
转载:https://www.cnblogs.com/xing901022/p/5920891.htmlsqoop的使用说明:https://help.aliyun.com/document_detail/28133.html
2019-05-30 17:11:18
225
转载 Spark 学习: spark 原理简述与 shuffle 过程介绍
转载:https://blog.youkuaiyun.com/databatman/article/details/53023818
2019-05-28 16:23:19
373
原创 简单搞定Shuffle机制运行原理(shuffle流程, Combiner合并)
转载:https://blog.youkuaiyun.com/github_36444580/article/details/752089922.4.1概述1)mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;2)shuffle:洗牌、发牌(核心机制:数据分区、排序、缓存);3)具体来说:就是将ma...
2019-05-28 16:20:44
982
转载 hive HQL查询语句的使用
https://blog.youkuaiyun.com/m0_37324825/article/details/80485002
2019-05-28 10:21:25
360
转载 Hive入门及常用指令
转载:https://www.cnblogs.com/gcczhongduan/p/5315099.htmlhttps://blog.youkuaiyun.com/ddydavie/article/details/80667727
2019-05-28 09:46:05
167
原创 Mr 结合yarn的运行流程(运行逻辑)
1、为什么要使用YARN?为了提升集群的利用率、资源统一管理, 使用YARN为上层应用提供统一的资源管理和调度的平台。2、YARN的优势? 资源的统一管理和调度:集群中所有节点的资源(内存、CPU、磁盘、网络等)抽象为Container。计算框架需要资源进行运算任务时需要向YARN申请Container, YARN按照特定的策略对资源进行调度进行Container的...
2019-05-28 09:23:28
823
原创 Hdfs启动过程及文件读写流程(精简专业版本)
一.Hdfs启动过程:HDFS的启动过程分为四个阶段:第一阶段:NameNode 读取包含元数据信息的fsimage文件,并加载到内存;第二阶段:NameNode读取体现HDFS最新状态的edits日志文件,并加载到内存中第三阶段:生成检查点,SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段:进入安全模式,检查数据块的完整性...
2019-05-28 09:17:50
871
转载 最近经历的一些大数据(Spark/Hadoop)面试题
转载:https://blog.youkuaiyun.com/lxhandlbb/article/details/54599512
2019-05-27 10:56:15
147
转载 hive 的分区和分桶
转载:https://yq.aliyun.com/articles/513814#Hive中分区表及陷阱https://blog.youkuaiyun.com/qq_35180983/article/details/82902943
2019-05-27 10:54:22
167
转载 大数据Hive 面试以及知识点
转载:https://blog.youkuaiyun.com/haohaixingyun/article/details/52819588
2019-05-27 10:36:12
569
原创 oozie4.3.0的安装与配置(hadoop2.7.1分布式集群环境)
一.oozie4.3.0的的编译需要依赖mavenhttps://www.jianshu.com/p/30aa16a813a7linux中执行java或者mvn命令提示没有权限解决办法:$ chmod a+x /var/jenkins_home/jdk1.8.0_191/bin/java$ chmod a+x /var/jenkins_home/apache-maven-3.3....
2019-05-23 11:06:17
329
原创 HDFS读写流程(史上最精炼详细)
转载(精简):https://blog.youkuaiyun.com/whdxjbw/article/details/81072207转载:https://blog.youkuaiyun.com/qq_30552441/article/details/81356132写详细步骤:客户端向NameNode发出写文件请求。检查是否已存在文件、检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流...
2019-05-21 16:19:18
135
原创 hadoop2.71 分布式高可用(HA机制下的,并且使用自己安装的zookeeper的集群)集群 Hbase1.2.6安装
转载:https://blog.youkuaiyun.com/qq_34758475/article/details/84337320(亲测有效)hbase集群规划解压hbase将hbase-1.2.8-bin.tar.gz解压到/opt/modules/soft目录下:1.配置hbase-env.sh文件:[root@master conf]# vi hbase...
2019-05-17 16:08:23
286
转载 hadoop2.7 集群分布式环境 Hbase的安装
转载:https://blog.youkuaiyun.com/u014454538/article/details/83625554
2019-05-13 16:47:40
159
原创 Hadoop的各个web界面的地址
1、HDFS界面:http://potter2:50070查看NameNode状态;该端口的定义位于core-default.xml中,可以在hdfs-site.xml中修改;如果通过该端口看着这个页面,以为着NameNode节点是存活的。1、HDFS页面:500702、YARN的管理界面:80883、HistoryServer的管理界面:198884、Zookee...
2019-05-13 10:30:54
622
转载 hadoop自带的writable类型
Hadoop 中,并没有使用Java自带的基本类型类(Integer、Float等),而是使用自己开发的类。Hadoop 自带有很多序列化类型,大致分为以下两种:实现了WritableComparable接口的类 基础:BooleanWritable | ByteWritable 数字:IntWritable | VIntWritable | FloatWritable | Long...
2019-05-10 16:49:25
1441
原创 Hadoop中Combiner和Partitioner应用场景
Combiner和Partitioner是用来优化MapReduce的。可以提高MapReduce的运行效率。Combiner集群上的可用带宽限制了MapReduce作业的数量,因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许用户针对map任务的输出指定一个combiner(就像mapper,reducer)。combiner函数的输出作为reduce函数的输入...
2019-05-10 12:27:29
388
转载 Hadoop Combiner与自定义Combiner
链接:https://www.cnblogs.com/edisonchou/p/4297786.html
2019-05-10 12:24:07
199
原创 Hadoop MapReduce框架Partitioner分区方法
前言:对于二次排序相信大家也是似懂非懂,我也是一样,对其中的很多方法都不理解诶,所有只有暂时放在一边,当你接触到其他的函数,你知道的越多时你对二次排序的理解也就更深入了,同时建议大家对wordcount的流程好好分析一下,要真正的知道每一步都是干什么的。1.Partitioner分区类的作用是什么?2.getPartition()三个参数分别是什么?3.numReduceTasks指的是设...
2019-05-10 12:21:41
193
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人