
Hadoop
Hadoop
吴成伟0122
开源爱好者,聚焦于大语言模型,NLP等领域,欢迎交流
展开
-
FAILED: RuntimeException org.apache.hadoop.hive.ql.security.authorization.plugin.HiveAuthzPluginExce
完整报错信息FAILED: RuntimeException org.apache.hadoop.hive.ql.security.authorization.plugin.HiveAuthzPluginException: SQL standards based authorization should not be enabled from hive cliInstead the use o...原创 2020-05-05 16:20:40 · 1276 阅读 · 0 评论 -
.sh: line 15: syntax error: unexpected end of fi
报错如下:/root/test/1reduce_clientlog.sh: line 15: syntax error: unexpected end of fi错误的结尾,打开检查没有什么错误结尾显示unix文本:e ++ff=unix %windows>liunx直接粘贴会出现格式转换问题,删除^M即可...原创 2020-04-24 10:24:39 · 541 阅读 · 0 评论 -
azkaban调度任务直接失败?
问题描述:azkaban调度任务直接失败?如下图,并且没有日志产生解决过程:查看服务器中executor日志[root@node4 logs]# lsazkaban-execserver.log[root@node4 logs]# pwd/opt/azkaban/azkaban-exec/bin/logs[root@node4 logs]# 找出错误原因:azkaban....原创 2020-04-22 22:01:26 · 1917 阅读 · 0 评论 -
java.net.UnknownHostException: mycluster
spark本地操作hive时,报错究其原因是,不能发现hadoop集群解决方法:故将hadoop的conf目录下的core-site.xml和hdfs-site.xml放到resource目录下此外需要注意的是本地运行的路径需要改为file:///+绝对路径不然,spark会去配置文件中寻找数据路径...原创 2020-04-21 00:07:38 · 4990 阅读 · 5 评论 -
yarn查看日志
1.命令行:yarn logs -applicationId 应用id2.yarn界面访问 http://ip:8080原创 2020-04-20 21:12:47 · 1743 阅读 · 0 评论 -
ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited
报错信息ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited with status 1场景:当sqoop从mysql向hive中导入数据时报错经检查是sqoop的版本和hadoop不一致导致,更换sqoop版本问题得到解决...原创 2020-04-20 21:07:52 · 1556 阅读 · 0 评论 -
hadoop之组件
1.Hadoop Commonhadoop通用组件:包含了其他hadoop模块要用到的库文件和工具2.HDFS分布式文件系统(Hadoop Dsitributed File System)运行于通用硬件(一般来说对硬件要求不高,廉价的都行)上的分布式文件系统,高吞吐,高可靠3.YARN资源管理组件,于2013年引入的组件,用于管理集群中的计算资源并在这些资源上调度用户应用.4....原创 2020-04-04 20:47:49 · 319 阅读 · 0 评论 -
Hadoop1.x/Hadoop2.x/Hadoop3.x的区别
Hadoop1.x是一个namenode一个scondarynamenode,到了hadoop2.x版本取消了scondarynamenode,但是增加了一个namenode,有两个namenode一主一备原创 2020-04-04 20:46:58 · 1457 阅读 · 0 评论 -
hadoop之文件读写流程
写文件流程1.调用客户端的对象DistributedFileSystem的create方法2.DistributedFileSystem会发起对namenode的一个RPC连接,请求创建一个文件,不包含关于block块的请求.namenode会执行各种各样的检查,确保要创建的文件不存在,并且客户端有创建文件的权限.如果检查通过,namenode会创建一个文件(在edits log中,同时更新...原创 2020-04-04 19:03:37 · 955 阅读 · 0 评论 -
HDFS之组件
1.NameNode2.SecondaryNameNodefsimage和edits log合并过程图3.DataNode组件图:1.NameNode1.NameNode就像班主任,主要负责管理文件系统的命令空间,文件元数据存放在内存中2.fsimage镜像文件,edits log编辑日志:两种方式在Namenode中进行持久化2.SecondaryNameNode...原创 2020-04-04 18:37:35 · 1148 阅读 · 0 评论 -
MapReduce之Google 网页排序算法PageRank
1.算法分析 pagerank PR值1.2算法实现1.2.1初始值1.2.2迭代计算(收敛)1.2.3算法修正2.数据计算3.Reduce输出该如何设计?3.1解题思路3.1.1MR原语不被破坏3.1.2map:3.1.3reduce:3.1.4开发步骤原创 2020-02-28 10:10:54 · 702 阅读 · 0 评论 -
MapReduce案例之天气分析
需求找出每个月温度最高的两天数据集1949-10-01 14:21:02 34c1949-10-01 19:21:02 38c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 37c1951-12-01 12:21:02 23c1950-10-02 12:21:02 41c1950-10-03 1...原创 2020-02-27 23:14:21 · 4397 阅读 · 0 评论 -
MapReduce案例之好友推荐
可能遇到的问题:Cannot create directory /mr/fof/input. Name node is in safe mode.解决方法:退出安全模式bin/hadoop dfsadmin -safemode leaveWARN util.NativeCodeLoader: Unable to load native-hadoop library for your pl...原创 2020-02-27 22:58:35 · 1395 阅读 · 2 评论 -
java客户端操作HDFS(IDEA,Eclipse插件)
windows上部署hadoop包部署包下载地址第一步:将hadoop.dll文件放到 c:/windows/system32第二步:配置环境变量添加HADOOP_HOME,HADOOP_USER_NAME=root将hadoopbin和sbin目录放到PATH中第三步:将hadoop-2.6.5.tar\hadoop-2.6.5\share\hadoop目录下中common,hdf...原创 2020-02-26 21:57:59 · 314 阅读 · 6 评论 -
Hadoop之3.0新特性
将默认的最低jdk从7升级到8纠删码可以将3倍副本占据的空间压缩到1.5倍,并保持3倍副本的容错。由于在读取数据的时候需要进行额外的计算,用于存储使用不频繁的数据通过扩展YARN的资源类型,支持CPU和内存之外的其他资源,如GPU、FPGA、软件许可证、本地存储等。重写了hadoop中的shell脚本,修复了很多长期存在的bug并添加了新特性。有一些改进兼容老版本,有一些不兼容。对map...原创 2020-02-21 23:10:04 · 266 阅读 · 0 评论 -
Hadoop之起源
发展历史1.2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。2.2003年10月,Google发表Google File System论文。3.2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。4.2004年10月,Google发表了MapReduce...原创 2020-02-21 21:55:59 · 1994 阅读 · 0 评论