
hadoop
文章平均质量分 72
Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。
李孟聊人工智能
独立开发,Substack和Medium顶级编辑
展开
-
Hadoop Yarn 创建Application
文章目录一.简介二.源码2.1 Client2.1.1 Client -> YarnClientApplication app = yarnClient.createApplication();2.1.2 Client -> yarnClient.submitApplication(appContext);一.简介创建Application是由client向ResourceManager发起申请,client与RM之间的通信依靠Hadoop RPC,通信协议是ApplicationClien原创 2021-07-24 19:34:29 · 2669 阅读 · 0 评论 -
Hdfs FileSystem Client
一.示例Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。public class HDFSFileSystem { public static void mai原创 2020-12-21 16:22:21 · 737 阅读 · 1 评论 -
Hadoop-Yarn源码-RPC基础
一.简介一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式程序在内的应用程序更加轻易。 (Hadoop 2.6版本)二.RPC通信模型RPC通常采用客户机/服务器模型。RPC处理过程客户程序以本地方式调用系统产生的Stub程序该Stub程序将函数调用信息按照网络通信模块要求封装成消息包,并交给通信模块发送到远程服原创 2020-06-30 22:41:38 · 1095 阅读 · 0 评论 -
MapReduce系统比较慢
常理上有几个理由使得MapReduce框架慢于MPP数据库: 1.容错所引入的昂贵数据实体化(data materialization)开销。2.孱弱的数据布局(data layout),比如缺少索引。3.执行策略的开销[1 2]。而我们对于Hive的实验也进一步证明了上述的理由,但是通过对Hive“工程上”的改进,如改变存储引擎(内存存储引擎)、改善执行架构(partial ...原创 2017-03-24 10:53:29 · 863 阅读 · 0 评论 -
Hadoop配置ssh免密码登陆配置和ssh原理
ssh:Secure Shell 是一种通用的、功能强大的、基于软件的网络安全解决方案. 计算机每次向网络发送数据时,SSH都会自动对其进行加密 命令行: cd ~ ls -la cd .ssh 以.开始是隐藏文件夹 ssh文件夹内容: id_rsa 私钥 id_rsa.pub 公钥 known_hosts ...原创 2016-10-02 10:57:39 · 901 阅读 · 0 评论 -
hadoop伪分布式搭建01
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only -> 修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok回到windows -->...原创 2016-10-01 14:43:03 · 1047 阅读 · 0 评论 -
hadoop伪分布式搭建03
承接hadoop伪分布式搭建02:https://blog.youkuaiyun.com/qq_19968255/article/details/828036483.4启动hadoop start-all.sh(过时了) 先启动HDFS sbin/start-dfs.sh 再启动YARN sbin/start-yarn.sh3.5验证是否启动成功 使用jps命令验证...原创 2016-10-02 09:55:01 · 907 阅读 · 0 评论 -
hadoop伪分布式搭建02
承接hadoop伪分布式搭建01:https://blog.youkuaiyun.com/qq_19968255/article/details/828036553.安装Hadoop 版本 hadoop-2.4.1 3.1上传hadoop安装包 3.2解压hadoop安装包 mkdir /cloud #解压到/cloud/目录下 tar -zxvf hadoop-2.2.0.tar...原创 2016-10-01 14:55:03 · 632 阅读 · 0 评论 -
hadoop报错总结02
hadoop报错总结01:https://blog.youkuaiyun.com/qq_19968255/article/details/828037681.当脚本在运行时报错信息如下:Examining task ID: task_201201061122_0007_m_000002 (and more) from job job_201201061122_0007Exception in th...原创 2019-02-13 16:31:44 · 1396 阅读 · 0 评论 -
MapReduce常见算法
单词计数数据去重排序Top K选择投影分组多表连接单表关联原创 2017-04-27 15:42:38 · 1132 阅读 · 0 评论 -
FAILED: Execution Error, return code 2 from org.apache.hadoop
Note: System times on machines may be out of sync. Check system time and time zones.解决办法一:在每台服务器上执行:ntpdate asia.pool.ntp.org 同步所有的服务器的时间解决办法二:设置参数set hive.exec.parallel=true; 解释:同一个sql中的不同的j...原创 2017-03-31 14:09:19 · 2462 阅读 · 0 评论 -
hadoop重新编译---安装系列二
yum -y install lzo-devel zlib-devel gcc autoconf automake libtool gcc-c++ openssl-devel ncurses-devel ant maven protocolbuf findbugs cmake 1、Protobuf 编译安装 tar -zxvf protobuf-2.5.0.tar....原创 2017-04-30 16:26:41 · 1768 阅读 · 0 评论 -
3台hadoop集群部署计划---安装系列一
注意:apache官网提供的hadoop-2.x的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.0就需要重新在64操作系统上重新编译安装 yum install psmiscKillall -9 java安装 glibc-headers 和 g++ 命令如下: $yum install glib...原创 2017-04-30 16:23:34 · 1267 阅读 · 0 评论 -
hadoop基准测试总结
hadoop jar /usr/hdp/2.4.0.0-169/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-2.7.1.2.4.0.0-169.jar TestDFSIO -write -nrFiles 100 -fileSize 100100个文件,每个100M ----- TestDFSIO ----- : ...原创 2018-03-31 15:27:33 · 1821 阅读 · 0 评论 -
hadoop报错总结01
1.进行矩阵计算的时候,由于持续时间长,往往会出现超时的错误,错误内容如下: INFO mapreduce.Job: Task Id : attempt_1422500209602_0008_m_000000_0, Status : FAILEDAttemptID:attempt_1422500209602_0008_m_000000_0 Timed out after 600 secs...原创 2017-11-27 17:37:33 · 1622 阅读 · 0 评论 -
Hadoop系列--MapReduce运行模式
1、在eclipse中开发好mr程序(windows或linux下都可以),然后打成jar包(hadoop-mapreduce.jar),上传到服务器 执行命令 hadoop jar hadoop-mapreduce.jar com.test.hadoop.mr.wordcount.WordCountRunner 这种方式会将这个job提交到yarn集群上去...原创 2017-06-15 15:18:58 · 974 阅读 · 0 评论 -
hadoop-更换ip
1、更改网卡的 ip 地址2、更改 /etc/hosts 中的 master 对应的 ip (这个一定要写对啊)3、hadoop namenode -format之前的准备阶段(删除一些文件 重要) 还要删除这个文件夹 hadoop-2.4.1/logs4、hadoop namenode -format5、再更改win系统 的hosts 配置VMware ...原创 2017-03-18 14:25:12 · 3384 阅读 · 1 评论 -
hadoop重新编译
yum -y install lzo-devel zlib-devel gcc autoconf automake libtool gcc-c++ openssl-devel ncurses-devel ant maven protocolbuf findbugs cmake 1、Protobuf 编译安装 tar -zxvf protobuf-2...原创 2017-04-06 12:08:38 · 1331 阅读 · 0 评论 -
MapReduce源码分析
job.waitForCompletion(true);进入源码submit()-> connect();连接,客户端获取服务端的代理对象connect()->new Cluster(getConfiguration());Cluster(jobTrackAddr,conf)->initialize->clientProtocol RPC通信versionID...原创 2017-05-02 15:48:10 · 951 阅读 · 0 评论 -
hadoop报错解决方案---安装系列三
操作过程中主要出现以下几个错误:Unsupported major.minor version 51.0处理办法:eclipse下的项目的jdk环境和liux下的jdk环境不一致,将windows下的eclipse中的jdk环境与linux的环境更改一致切换linux的jdk版本为1.7:上传jdk7压缩包并解压配置jdk变量 vi /etc/profil...原创 2017-04-30 16:28:27 · 2035 阅读 · 0 评论