利用Wget 直接将数据Put到HDFS 上

Wget 直接上传 HDFS
本文介绍如何使用 wget 命令从指定 URL 下载文件,并通过 hadoop fs 命令直接将文件上传至 HDFS,避免了文件落地的过程。文中详细解释了参数 -O 的作用以及如何实现数据流的重定向。

如题:


wget http://117.79.226.247:8888/impala/download/1565/xls -O - | hadoop fs -put - /tmp/wget_to_hdfs


-O 重命名
-O  后面的 - 为重定向到标准输出,(这里就是控制台) -put 后面的 - 标准输入(对应前面的标准输出)

这样 就可以是数据不落地直接PUT 到 hdfs上面,项目刚刚的~





### HDFS分布式文件系统部署 #### 环境准备 要部署HDFS分布式文件系统,需多台安装了Linux系统(如Ubuntu、CentOS)的服务器,且服务器间网络要互通。同时,要安装Java环境,因为Hadoop是用Java编写的。以CentOS为例,可使用以下命令安装OpenJDK: ```bash sudo yum install java-1.8.0-openjdk-devel ``` #### 下载并解压Hadoop 从Hadoop官方网站下载合适版本的Hadoop,然后解压到指定目录: ```bash wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local/ ``` #### 配置Hadoop环境变量 编辑`~/.bashrc`文件,添加以下内容: ```bash export HADOOP_HOME=/usr/local/hadoop-3.3.4 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 使配置生效: ```bash source ~/.bashrc ``` #### 配置HDFS相关文件 在`$HADOOP_HOME/etc/hadoop`目录下,主要配置以下文件: - `core-site.xml`:配置HDFS的核心参数,如NameNode的地址。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://namenode:9000</value> </property> </configuration> ``` - `hdfs-site.xml`:配置HDFS的具体参数,如副本数。 ```xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> </configuration> ``` #### 格式化NameNode 在首次启动HDFS前,需格式化NameNode: ```bash hdfs namenode -format ``` #### 启动HDFS 启动NameNode和DataNode: ```bash start-dfs.sh ``` ### HDFS数据读写实验 #### 数据写入 使用`hdfs dfs`命令将本地文件上传到HDFS: ```bash hdfs dfs -put /local/path/file.txt /hdfs/path/ ``` #### 数据读取 将HDFS上的文件下载到本地: ```bash hdfs dfs -get /hdfs/path/file.txt /local/path/ ``` #### 验证数据读写 查看HDFS上的文件列表: ```bash hdfs dfs -ls /hdfs/path/ ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值