
Hadoop
文章平均质量分 54
一些关于hadoop的学习记录
喜欢coding的谢同学
2020年网易实习
2021年字节跳动校招
小Red书同名,一起努力学习吧~
展开
-
简单两步在单元测试中使用HDFS和Hive
INSERT VALUES Unit TestValidated SqlNode在这里插入代码片before fixINSERT INTO `CATALOG`.`SALES`.`T3`VALUES ROW('a', CAST(1.0 AS INTEGER), CAST(1 AS SMALLINT)),ROW('b', 2, CAST(2 AS SMALLINT)),ROW('c', 3.0, CAST(3 AS SMALLINT)),ROW('d', 4.0, 4),ROW('e', 5原创 2021-11-27 14:21:09 · 887 阅读 · 0 评论 -
远程调试提交到hadoop的jar包
我们通常可以用hadoop jar来提交自己的jar包hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.2-sources.jar org.apache.hadoop.examples.WordCount /user/root/input /user/root/output在hadoop脚本中加入两行,打印类路径和java命令可以看到hadoop jar本质上是对java命令的封原创 2021-01-31 10:17:31 · 571 阅读 · 0 评论 -
YARN的MRAppMater源码学习记录
先看这个类的入口main方法, public static void main(String args[]) { try { //准备一些参数 Thread.setDefaultUncaughtExceptionHandler(new YarnUncaughtExceptionHandler()); String containerIdStr = System.getenv(org.apache.原创 2021-01-31 10:17:12 · 227 阅读 · 0 评论 -
YARN的DistributedShell源码分析
文章目录准备工作代码剖析Clientinit()run()ApplicationMaster准备工作hadoop官方提供了两个YARN应用程序的示例,这里修改distributedshellhadoop-2.7.6-src\hadoop-yarn-project\hadoop-yarn\hadoop-yarn-applications将这个模块复制一份到自己的工作空间,然后导入idea导入的时候所有选项默认即可,不了解的不建议修改,甚至是项目名也不可随意更改mvn package -Dm原创 2021-01-31 09:13:08 · 344 阅读 · 0 评论 -
YARN执行DistributedShell示例
本文介绍YARN自带的一个非常简单的应用程序实例—distributedshell的使用方法。它可以看做YARN编程中的“hello world”,主要功能是并行执行用户提供的shell命令或者shell脚本。我的集群情况,主要关注1个RM和3个NM用DistributedShell创建一个hello-world文件这里不能用echo输出,应该是运行环境输出定向的问题我自己虚拟机跑的,只有3个NM,内存设置的也比较小$HADOOP_HOME/bin/hadoop jar $HADOOP_.原创 2021-01-31 09:11:50 · 694 阅读 · 0 评论 -
Presto源码分析-Client提交流程
Presto有两大分支一个prestodb,另一个是prestosql。二者的区别找到了一篇文章,可以了解一下。原创 2020-12-05 12:09:01 · 690 阅读 · 0 评论 -
大数据实战-全网热词
数据采集python爬取一开始借鉴了这篇博客:centos6安装python3但是出了bug,招不到ssl的解决方案pip3 install requests lxml pyqueryflume转发kafka缓存需要先启动zk和kafka集群创建topickafka-topics.sh --zookeeper node102:2181 --create --topic HotWord --partitions 1 --replication-factor 1控制台消费者kaf原创 2020-11-07 09:03:54 · 1006 阅读 · 1 评论 -
hdfs上传文件中断后文件在系统中的情况
面试的时候遇到了一个问题,hdfs上传文件中断后文件在系统中的情况是怎样的?这个平时还真的没有注意,所以自己做了一下实验来求证。1.首先上传一个比较大的文件(至少得有两块吧),然后在上次的时候中断。可以看到如下的异常,并提示我们可以删除已经存在的._COPYING_文件2.webUI界面可以看到这个._COPYING_文件3._COPYING_文件只有一块,并没有期待的两块(如果中断的...原创 2020-04-18 08:56:44 · 744 阅读 · 0 评论 -
浅析hadoop源码之FileSystem与FileUtil
FileSystem这是一个抽象类,具体的实现类很多,当中的方法虽然有实现,但多数是对工具方法的调用。简单的看看从本地上传、下载到本地的方法,至于创建、删除、重命名等一个文件系统内部的方法不一一细看,还有些设置所有者、权限的方法都略过去了。FileUtil这是个工具类,负责文件的许多具体操作。copycopy一个有七个重载的方法,具体的参数列表以及关系如下这个是实现目标文件系统到...原创 2020-03-23 21:12:51 · 463 阅读 · 0 评论 -
docker从零开始搭建Hadoop完全分布式(二)-搭建hadoop环境
文章目录前言准备工作域名映射免密配置两个常用脚本搭配使用JPShadoop配置hdfs相关mapreduceyarn分发文件准备启动格式化启动前言在上一篇博客从零开始准备了一台hadoop的机器准备工作域名映射docker exec -it hadoop1 bashdocker exec -it hadoop2 bashdocker exec -it hadoop3 bash分别...原创 2020-03-08 17:03:18 · 1332 阅读 · 4 评论 -
docker从零开始搭建Hadoop完全分布式(一)-Linux基础版安装与集群环境准备
文章目录前言容器创建容器配置必做apt文件选做权限安全复制容器前言一般用docker都是直接下载装有hadoop的镜像,但是这次为了复习一下hadoop的搭建以及linux的使用,决定从零开始搭建一个完全分布式的集群。容器创建记得在用VMware的时候,这一步特别麻烦,现在docker两行就搞定了。首先拉取需要的镜像,我这里以ubuntu:18.04为例子docker pull ubu...原创 2020-03-08 17:03:10 · 969 阅读 · 3 评论 -
封装一个简单的HBaseUtil
文章目录前言Meaven依赖私有属性构造方法代码演示表格操作判断是否存在新建表格删除表格数据操作添加或者修改一条数据多条数据前言HBase作为一个面向列族的数据库,和一般的数据库不同,没法用JDBC封装的那套util,便重新封装了个HBase自己的util供项目使用。Meaven依赖注意修改成自己的版本,可以去https://mvnrepository.com/artifact/org.a...原创 2019-07-13 16:02:45 · 329 阅读 · 0 评论 -
巧搭Hadoop完全分布式(五)-Hadoop的配置以及常见权限问题
文章目录前言避免CentOS中的bug修改配置文件分发文件格式化namenode启动集群常见权限问题以root进行格式化以root进行首次启动前言做了这么多准备工作之后,终于正式进入Hadoop的配置了避免CentOS中的bug这一步只有CentOS需要做,Ubuntu那些系统不需要进入etc下的hadoop1.固定hadoop_env.sh中的JAVA_HOME2.固定mapr...原创 2019-02-11 13:36:29 · 901 阅读 · 0 评论 -
巧搭Hadoop完全分布式(四)-两个常用shell脚本的编写
前言在免密登录都做好之后,再编写两个脚本以便提高我们管理集群的效率分发指令这一个脚本可以让我们在一台机器上操作的指令在集群中都生效,避免我们一台台机器去操作新建脚本文件vi#!/bin/bash完整代码#!/bin/bashif [ $# -lt 1 ] then echo "There is no commond to execute!" exitfiLOGIN...原创 2019-02-11 13:36:16 · 463 阅读 · 0 评论 -
巧搭Hadoop完全分布式(三)-Linux克隆版安装并设置免密登录
文章目录前言多次克隆修改配置免密设置前言在有了基础版之后,克隆起来就很方便了多次克隆1.在关机状态下,选中基础版选中克隆2.进入克隆向导3.选择虚拟机当前状态4.完整克隆5.虚拟机命名等待克隆完成需要多大的集群就克隆多少台,克隆还是比从零开始装一个方便很多我这里就只克隆了三台修改配置这个环节也得每台机器做一遍cd /etc/udev/rules.d/进...原创 2019-02-10 21:44:26 · 376 阅读 · 0 评论 -
巧搭Hadoop完全分布式(二)-Linux基础版配置
文章目录前言登录权限方面安全方面网络方面文件方面yum方面后记前言在安装好centos之后,进行一些集群的通用配置,克隆之后就不用再一台一台去设置了登录由于还没配置ip,先只能在VM中登录,想用远程连接的话,先跳到网络部分,配置好ip再远程连接权限方面在权限方面做如下操作1.准备一个专门做大数据业务的用户可以叫做bduser或者hadoop,根据自己喜好来定2.让刚刚创建的用户...原创 2019-02-10 21:44:13 · 266 阅读 · 0 评论 -
巧搭Hadoop完全分布式(一)-Linux基础版安装
文章目录前言准备工作新建虚拟机启动向导系统配置硬件配置加载ISO安装Centos首次开机安装向导前言总结了一下自己搭建完全分布式的过程,反思了一下这些步骤,准备分享分享,希望对大家有帮助,也欢迎大佬指出不足。准备工作一个安装好的VM与Liunx镜像文件我用的是centos,附上下载地址网易镜像:http://mirrors.163.com/centos/6/isos/搜狐镜像:htt...原创 2019-02-10 21:43:44 · 259 阅读 · 0 评论 -
浅析Hadoop源码-运用Eclipse简单跟踪waitForCompletion探寻切片机制
文章目录前言过程探寻前奏生成目录处理切片生成文件汇总配置后记前言过程探寻前奏首先在提交处设置断点F5进入waitForCompletion, 可以看到这个方法不算太长显然waitForCompletion是对submit的封装,在其基础上多了一些校验;继续进入submit查看一下这里确认状态、进行了版本适配,连接获得集群对象再将这个job提交在方法return处设置断点进去...原创 2019-01-28 19:54:40 · 418 阅读 · 0 评论 -
浅析Hadoop源码-InputSampler.RandomSampler的抽样频率freq
前言今天学习Hadoop的时候,对于随机抽样的频率感到不理解,便查看了一下源码,得出如下的猜测。分享出来和大家交流交流,如有错误,希望大佬指正。问题描述InputSampler.Sampler<IntWritable, IntWritable> sampler = new InputSampler.RandomSampler<IntWritable, IntWritable...原创 2019-01-25 22:02:59 · 764 阅读 · 0 评论