linux，hadoop记录

原创已于 2022-01-26 15:24:17 修改 · 230 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#linux #hadoop

于 2021-10-20 13:51:59 首次发布

数据库专栏收录该内容

48 篇文章

订阅专栏

这篇博客介绍了如何使用HadoopFS将文件上传到/user/etl/fahs/dwd目录，并随后执行etl_comm.sh脚本，处理fund_trade_detail_init.sql。还提及了使用yarn logs查看应用日志和kinit认证过程，以及元数据的更新操作。

hadoop fs -put -f /user/etl/fahs/dwd/
sh ~/etl_app/comm/bin/etl_comm.sh /user/etl/fahs/dwd/fund_trade_detail_init.sql
yarn logs -applicationId application_1633244180597_12530 >./app3.log
kinit etl_submitter
invalidate metadata -使元数据生效

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

扬州的你

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【翻译】Writing an Hadoop MapReduce Program in Python

yyhustim的专栏

10-28

909

http://www.tianjun.ml/essays/19 写作缘由尽管Hadoop的框架是用Java写的，但是基于Hadoop运行的程序并不一定要用Java来写，我们可以选择一些其他的编程语言比如Python或者C++。不过，Hadoop的文档以及Hadoop网站上给出的典型Python例子可能让人觉得必须先将Python的代码用Jython转成一个Java

虚拟机Linux Hadoop部署

夏末蝉未鸣的博客

07-26

671

参照B站黑马程序员2023大数据课程Hadoop部署过程课程，分享我的成功部署经历，由于所用的虚拟机和软件与课程上的不一样，所以部署过程也有些许不同，但最终还是成功部署

参与评论您还未登录，请先登录后发表或查看评论

linux安装Hadoop记录

jquery_learn的博客

09-05

517

Hadoop安装记录

Linux安装Hadoop及其环境配置

相互学习共同进步

06-16

3657

使用的是Hadoop的伪分布式，因此需要配置的文件如下：hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、yarn-site.xml。指定datanode从节点（根目录/etc/hadoop/slaves文件，每个节点配置信息占一行）指定DataNode从节点（修改etc/hadoop/slaves文件，每个节点配置信息占一行）指定ResourceManager老大节点所在计算机节点（修改yarn-site.xml），即可查看相关信息。

Linux下的Hadoop分布式安装详解

weixin_43322583的博客

08-15

2575

Linux下分布式部署hadoop全流程详细记录附带图文。

Linux hadoop删除命令,hadoop的常用命令指南

weixin_30134145的博客

05-01

7471

1.start-all.sh开启线程hadoop fs -ls hdfs://cloud4:9000/user (cloud4表示主机名9000代表端口号/就代表根目录/user就是user文件夹)hadoop fs -ls /user(hdfs://cloud4:9000可省略)2. -ls/-lsr 查看目录下的文件信息hadoop fs -ls /查看根目录下文件与文件夹hadoop fs ...

Linux-Hadoop配置总结

ahahayaa的博客

03-20

1814

执行上述命令后，root用户就会被添加到hadoop组中，可以使用hadoop用户组的权限访问Hadoop服务所需的文件和目录，并可以运行Hadoop服务。这将把Hadoop的安装目录和其子目录的所有者和组设置为hadoop，并设置文件和目录的权限，以便普通用户也可以读取、写入和执行它们。在Linux中，用户的环境变量通常是在登录时设置的，而在切换用户后，用户的环境变量通常不会自动更新，因此可能需要手动更新root用户的环境变量才能使用hadoop用户配置的Java。

手把手教你在linux中部署hadoop以及hadoop功能介绍

wszhm123的博客

08-22

5392

我们在学大数据的时候hadoop是躲避不开的地方，所以如何在linux中部署hadoop，下面就是手把手教你如何部署hadoop。你只要复制粘体，然后按enter键就可以了。准备：安装Linux版本的服务器。

linux hadoop免密码配置

猿猿不断的博客

11-17

548

一、先给主机配置域名这里有三台服务器分别是192.168.56.101、192.168.56.102、192.168.56.103，设置对应域名为hadoop101、hadoop102、hadoop103 1.手动本次将域名改为hadoop101 2.修改/etc/hosts文件二、这里写个同步文件脚本便于后面操作文件同步 1.vixsync #!/bin/bash #1. 判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguem...

从 Linux 安装到 Hadoop 环境搭建全过程

奇妙的代码

07-01

9693

从 Linux 的最小化安装到 Hadoop 环境的搭建，尽可能详尽介绍每个步骤。

非root权限下配置linux hadoop集群自动SSH记录

10-22

在Linux环境中，尤其是在Hadoop集群的管理中，SSH（Secure SHell）是不可或缺的工具，它允许用户在不同节点之间安全地执行命令。在没有root权限的情况下，普通用户也能配置SSH，实现自动化操作，这对于集群维护和...

精选资源

【向Linux迁移记录】Deepin Linux下快速Hadoop完全分布式集群搭建-附件资源

03-02

【向Linux迁移记录】Deepin Linux下快速Hadoop完全分布式集群搭建-附件资源

hadoop linux安装包

05-04

这个“hadoop-3.1.0.tar.gz”安装包包含了运行Hadoop集群所需的所有核心组件，适用于Linux操作系统。下面我们将深入探讨Hadoop的架构、安装步骤以及使用技巧。 Hadoop的主要组成部分包括Hadoop Distributed File ...

oracle限制条数

jtpython666的博客

09-01

5731

oracle限制条数和mysql不一样。oracle为 where rownum<100000。 mysql为limit。

hive删除表语句

jtpython666的博客

01-11

5340

-- 删除库 drop database if exists db_name; -- 强制删除库 drop database if exists db_name cascade; -- 删除表 drop table if exists employee; -- 清空表 truncate table employee; -- 清空表，第二种方式 insert overwrite table employee select * from employee where 1=0; -- 删除分区

sql查询技巧之记录数

jtpython666的博客

08-05

2772

当你想要分类查询记录数是，比较好的方法是group by 分组，然后使用count()计算，count会返回有多少条记录，sum是求和。当看到关键词“各个”时候，应该联想到group by 有一个部门表departments简况如下: 有一个，部门员工关系表dept_emp简况如下: 有一个薪水表salaries简况如下: 请你统计各个部门的工资记录数，给出部门编码dept_no、部门名称dept_name以及部门在salaries表里面有多少条记录sum，按照dept_no升序排序，以上例子输出如下

ora-01858 报错解决

jtpython666的博客

09-01

2378

报错原因是导出表和导入的表结构不一样，不能用 insert into abc select * from dw_credit_feedback; 应该把*换成所有字段，把字段具体写出来就行

hive建表脚本

jtpython666的博客

11-29

2067

drop table if exists ld.boi_asset_units; create table if not exists ld.boi_asset_units ( asset_unit_code string comment'资产单元代码' ,asset_unit_name string comment'资产单元名称' ,asset_unit_group_co

exist用法

jtpython666的博客

08-26

1877

exists表示()内子查询语句返回结果不为空说明where条件成立就会执行主sql语句，如果为空就表示where条件不成立，sql语句就不会执行。not exists和exists相反，子查询语句结果为空，则表示where条件成立，执行sql语句。负责不执行。之前在学Oracle数据库的时候，接触过exists，做过几个简单的例子,，如 1.如果部门名称中含有字母A，则查询所有员工信息(使用exists) select * from emp where exists (select * from dep

linux hadoop mapreduce

最新发布

09-15

在Linux系统下使用Hadoop进行MapReduce编程或操作，可参考以下内容： ### 运行Java编写的MapReduce程序使用`bin/hadoop jar`命令运行Java编写的MapReduce程序，示例命令如下： ```bash bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/words /test/out ``` 此命令运行了Hadoop自带的WordCount示例程序，对`/test/words`目录下的文件进行词频统计，并将结果输出到`/test/out`目录中[^1]。 ### 运行Python编写的MapReduce程序借助Hadoop Streaming来运行Python编写的MapReduce程序，其可帮助在Map和Reduce之间传递数据，并通过标准输入输出（STDIN和STDOUT）进行数据交互。示例命令如下： ```bash hadoop jar contrib/streaming/hadoop-streaming-1.1.2.jar -mapper /usr/local/hadoop/mapper.py -reducer /usr/local/hadoop/reducer.py -input book/* -output book-output ``` 该命令指定了mapper脚本`mapper.py`、reducer脚本`reducer.py`，输入文件路径为`book/*`，输出路径为`book-output`[^2]。 ### 准备工作在HDFS中创建实验的输入和输出目录，并将本地文件上传到输入目录，以便后续在Hadoop集群上运行MapReduce任务。例如，可将本地文件上传到输入目录，文档文件名可自行命名，如`222.txt` [^3]。 ### Hadoop目录结构 Hadoop的目录结构如下： - `bin`目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本。 - `etc`目录：Hadoop的配置文件目录，存放Hadoop的配置文件（core，yaml，hdfs等配置）。 - `lib`目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）。 - `sbin`目录：存放启动或停止Hadoop相关服务的脚本。 - `share`目录：存放Hadoop的依赖jar包、文档、和官方案例 [^4]。 ### 启动和关闭服务启动YARN服务可执行命令： ```bash sbin/start-yarn.sh ``` 运行完MapReduce程序后，可关闭HDFS文件系统和YARN [^5]。 ### 查看运行结果可在网页端打开HDFS和YARN查看运行结果与运行记录 [^5]。