linux,hadoop记录

这篇博客介绍了如何使用HadoopFS将文件上传到/user/etl/fahs/dwd目录,并随后执行etl_comm.sh脚本,处理fund_trade_detail_init.sql。还提及了使用yarn logs查看应用日志和kinit认证过程,以及元数据的更新操作。

hadoop fs -put -f /user/etl/fahs/dwd/
sh ~/etl_app/comm/bin/etl_comm.sh /user/etl/fahs/dwd/fund_trade_detail_init.sql
yarn logs -applicationId application_1633244180597_12530 >./app3.log
kinit etl_submitter
invalidate metadata -使元数据生效

Linux系统下使用Hadoop进行MapReduce编程或操作,可参考以下内容: ### 运行Java编写的MapReduce程序 使用`bin/hadoop jar`命令运行Java编写的MapReduce程序,示例命令如下: ```bash bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/words /test/out ``` 此命令运行了Hadoop自带的WordCount示例程序,对`/test/words`目录下的文件进行词频统计,并将结果输出到`/test/out`目录中[^1]。 ### 运行Python编写的MapReduce程序 借助Hadoop Streaming来运行Python编写的MapReduce程序,其可帮助在Map和Reduce之间传递数据,并通过标准输入输出(STDIN和STDOUT)进行数据交互。示例命令如下: ```bash hadoop jar contrib/streaming/hadoop-streaming-1.1.2.jar -mapper /usr/local/hadoop/mapper.py -reducer /usr/local/hadoop/reducer.py -input book/* -output book-output ``` 该命令指定了mapper脚本`mapper.py`、reducer脚本`reducer.py`,输入文件路径为`book/*`,输出路径为`book-output`[^2]。 ### 准备工作 在HDFS中创建实验的输入和输出目录,并将本地文件上传到输入目录,以便后续在Hadoop集群上运行MapReduce任务。例如,可将本地文件上传到输入目录,文档文件名可自行命名,如`222.txt` [^3]。 ### Hadoop目录结构 Hadoop的目录结构如下: - `bin`目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本。 - `etc`目录:Hadoop的配置文件目录,存放Hadoop的配置文件(core,yaml,hdfs等配置)。 - `lib`目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)。 - `sbin`目录:存放启动或停止Hadoop相关服务的脚本。 - `share`目录:存放Hadoop的依赖jar包、文档、和官方案例 [^4]。 ### 启动和关闭服务 启动YARN服务可执行命令: ```bash sbin/start-yarn.sh ``` 运行完MapReduce程序后,可关闭HDFS文件系统和YARN [^5]。 ### 查看运行结果 可在网页端打开HDFS和YARN查看运行结果与运行记录 [^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值