大数据学习5——HDFS常用的文件操作命令

最新推荐文章于 2024-10-13 20:07:42 发布

原创最新推荐文章于 2024-10-13 20:07:42 发布 · 540 阅读

1 ·

CC 4.0 BY-SA版权

大数据原理与应用专栏收录该内容

7 篇文章

订阅专栏

本文介绍了如何使用HDFS的基本命令进行文件夹创建、文件上传、目录及文件查看、文件删除和文件复制等操作。

基本形式：

hadoop fs -cmd < args >

1.创建hdfs文件夹（-mkdir）

hadoop fs -mkdir user
hadoop fs -mkdir user/hadoop
hadoop fs -mkdir user/hadoop/input

注意，目录只能一级一级得建，如果不存在父目录，就无法创建。

2.将本地文件上传到hdfs上（-put）

hadoop fs -put /home/hadoop/文档/hello.txt /user/hadoop/input

3.查看文件系统的目录和文件（-ls）

hadoop fs -ls  / #列出根目录下的文件

4.删除文件（-rm）

hadoop fs  -rm  -r /user/hadoop/user

如果要删除的是一个目录，而不是一个文件时，需在-rm后加-r。

5.复制文件（-cp）

hadoop fs -cp  < hdfs file >  < hdfs file >

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

csdn950212

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据基础平台——HDFS文件系统

Hydrox_的博客

09-17

1653

了解与熟悉HDFS文件系统；掌握HDFS的常用操作。

2024年【Hadoop大数据技术】——HDFS分布式文件系统（学习笔记(2)，BTAJ面试有关散列（哈希）表的面试题详解

2401_84181403的博客

05-05

1033

练习题：客户端上传文件的时候哪项是正确的？（多选）A、数据经过 NameNode 传递给 DataNodeB、客户端端将文件切分为多个Block，依次上传C、客户端只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作D、客户端发起文件上传请求，通过RPC与NameNode建立通讯。答案：BD。

参与评论您还未登录，请先登录后发表或查看评论

Hadoop HDFS文件操作

上善若水

04-17

1042

1、添加目录，HDFS默认工作目录为 /user/{user},其中{USER}为当前登录的用户名。 hadoop fs -mkdir -p /user/root 2、查看目录文件列表 hadoop fs -ls -R / 3、将文件从本地目录put到hdfs中 hadoop fs -put /root/example.ext /user/root 4、删除文件 hadoop...

HDFS文件操作命令与HDFS编程

04-10

文档详细的讲述了Hadoop中HDFS文件操作命令和HDFS编程

HDFS常用操作

zbb50351772的博客

05-09

7568

大数据学习笔记01 学习林子雨大数据教材的一些笔记 HDFS常用操作启动Hadoop，在HDFS中创建用户目录“/user/hadoop”；$ cd /usr/local/hadoop $ ./sbin/start-dfs.sh $ jps 在Linux系统的本地文件系统的“/usr/local/spark/mycode”目录下新建一个文本文件Word.txt$ cd /usr/local/spark $ mkdir mycode $ touch Word.txt || $vim Word.t

HDFS图解及流对文件的操作

wang_da_king的博客

07-28

697

HDFS：Hadoop Distributed File System（Hadoop分布式文件系统） Introduction：The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities ...

Hadoop Archives *.har文件解析备忘

eagle0912的博客

09-26

554

mark:HarFileSystem source:hadoop-common-2.0.0-cdh4.3.0.jar 为了节省NN的元数据，可以将HDFS上的不再变化的小文件归档。Hadoop archives是Hadoop自带的特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archi...

最全大数据应用——HDFS常用命令_hdfs cat命令(2)，经典好文

2401_84182392的博客

05-12

687

HDFS是一种允许文件通过网络在多台主机上分享的文件系统，可以让多台机器上的多个用户分享文件和存储空间。HDFS只是分布式文件管理系统中的一种。HDFS的适用场景：适合一次写入，多次读出的场景，且不支持文件的修改。

大数据Hadoop入门——HDFS、Yarn、MapReduce

weixin_44090845的博客

11-16

2704

Hadoop框架详细个人总结——Hadoop入门篇大数据是什么？Hadoop基本概念介绍一、什么是Hadoop？二、Hadoop优势——四高三、Hadoop组成（重点）四、HDFS架构五、YARN架构六、MapReduce架构七、HDFS、YARN、MapReduce 三者关系Hadoop运行环境搭建虚拟机的准备一、安装虚拟机二、虚拟机配置及环境准备Hadoop运行模式一、本地运行模式二、伪分布式模式三、完全分布式模式**1.虚拟机准备****2.准备一个集群分发脚本****3.SSH 无密登录配置****

大数据面试题整理——HDFS

qq_68076599的博客

10-13

1476

您好，HDFS 即 Hadoop 分布式文件系统，它在大数据处理中起着至关重要的作用。HDFS 采用主从架构，主要由一个 NameNode 和多个 DataNode 组成。NameNode 负责管理整个文件系统的元数据，包括文件的目录结构、文件名以及文件块的位置信息等。而 DataNode 则实际存储数据块。HDFS 具有高容错性，通过数据冗余存储多个副本来确保数据的可靠性，非常适合处理大规模的数据，并且采用流式数据访问模式，即一次写入多次读取，这种模式特别适合批处理作业。

hdfs常见面试题及答案

10-15

一些简单的大数据面试题，如有更新后期会实时更新，有需要的赶紧下载

HDFS：如何复制文件

热门推荐

TH_NUM的博客

04-12

1万+

hadoop复制文件 hadoop fs -cp /user/merge /user/search 上面的命令将merge文件下面的所有文件（包括merge文件夹）复制到search目录下。

hdfs文件操作大全

hanyong4719的博客

10-03

204

import java.io.BufferedReader; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.URI; import java.net.URISyntaxException; import java.util....

Linux文件/目录所有者/所在组

辉小歌的博客

10-29

2657

目录文件/目录所有者文件/目录所在组上述的实践操作文件/目录所有者文件所有者:一般为文件的创造者,谁创建了该文件，就自然的成为文件的所有者。查看文件/目录的所有者指令: ls-ahl 修改文件/目录所有者指令: chown 用户名文件名文件/目录所在组查看文件/目录所在组指令: ls-ahl 修改文件/目录所有组指令: chgrp 组名文件名上述的实践操作例: 用当前这个su用户创建一个1.txt文件,看1.txt文件的所有者和所在组分别是谁创建一个aa用户,将1.

HDFS常用命令

progammer10086的博客

04-11

847

命令作用样例解释 -mkdir 创建目录 hadoop fs -mkdir sanguo -moveFromLocal 剪切 hadoop fs -moveFromLocal shuguo.txt /sanguo 将本地文件剪切到hdfs -copyFromLocal 拷贝 hadoop fs -copyFromLocal weiguo.txt /sanguo 将本地文件拷贝到hdfs -put 拷贝 hadoop fs -put wuguo.txt /sanguo 和c

HDFS基本操作命令

m0_62064241的博客

07-04

2341

HDFS基本操作命令

HDFS文件系统介绍及简单API操作

qq_23229591的博客

07-30

655

HDFS文件系统 HDFS概念概念 HDFS是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它还是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有个字的角色。 HDFS的设计适合一次写入，多次读取的场景，且不支持文件的修改。适合用来做数据分析，并不适合做网盘应用。组成 HDFS集群包括，NameNode和DataNode以及Secondary N...

【Hadoop-HDFS】HDFS常用操作命令

weixin_53543905的博客

04-04

6819

普通创建：递归创建：-s选项将显示文件长度的汇总摘要，而不是单个文件。-h选项将以“人类可读”的方式格式化文件大小（例如64.0m而不是67108864）(%b)，文件名(%n)，块大小(%n)，复制数(%r)，修改时间(%y%Y)【Hadoop-HDFS】HDFS常用操作命令

Hadoop hdfs文件操作常用命令

学亮编程手记

03-04

636

hadoop fs -操作命令 -参数 -ls #显示目录信息 -->hadoop fs -ls hdfs://hadoop-server-00:9000/ 这些参数中，所有的hdfs路径都可以简写 -->hadoop fs -ls / 等同于上一条命令的效果 -copyFromLocal #从本地文件系统中拷贝文件到hdfs路...

网约车大数据综合项目——数据分析Hive

最新发布

04-30

### 使用 Hive 进行网约车大数据项目的分析 #### 方法概述 Hive 是一种基于 Hadoop 的数据仓库工具，能够高效地查询和分析大规模结构化数据。对于网约车大数据项目，可以利用 Hive 提供的 SQL 查询功能完成数据清洗、聚合以及复杂模式识别的任务。以下是使用 Hive 对网约车数据进行分析的具体方法： 1. **创建数据库与表** 首先需要定义一个用于存储网约车数据的数据库 `trafficdata` 并在其下创建相应的表来保存原始数据和其他中间结果。创建数据库命令如下： ```sql CREATE DATABASE IF NOT EXISTS trafficdata; USE trafficdata; ``` 接着按照实际需求设计表格结构。例如，创建订单详情表 `createorder` 可以采用以下语句[^4]: ```sql CREATE TABLE createorder ( companyid STRING, address STRING, districtname STRING, orderid STRING, departtime STRING, ordertime STRING, departure STRING, deplongitude STRING, deplatitude STRING, destination STRING, destlongitude STRING, destlatitude STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; ``` 2. **加载数据至 Hive 表** 原始日志文件通常位于 HDFS 上，在此之前需确保这些文件已上传到指定路径 `/opt/hive/warehouse/trafficdata.db/createorder`. 加载完成后即可执行后续操作。 3. **统计成功订单中的热门路线** 利用 HiveSQL 统计出行频率最高的几条线路是一项常见任务。假设每笔交易都包含起点坐标(deplongitude,deplatitude) 和终点坐标(destlongitude,destlatitude)，那么可以通过分组加排序实现这一目的[^2]: ```sql INSERT OVERWRITE TABLE orderline SELECT CONCAT_WS('->', deplongitude, deplatitude), COUNT(*) as cnt FROM createorder WHERE status='success' GROUP BY deplongitude, deplatitude ORDER BY cnt DESC LIMIT 5; ``` 4. **探索取消原因分布** 类似于前面提到的成功行程分析方式，我们也可以针对那些被终止的服务请求展开研究。比如找出最常见的十类拒绝服务的理由[^3] : ```sql SELECT reason, count(reason) total_count FROM cancelreasons GROUP BY reason ORDER BY total_count DESC LIMIT 10; ``` 5. **导出结果给关系型数据库(MySQL)** 当某些报表或者仪表盘需要用到最终汇总后的数值时，则有必要借助 Sqoop 工具把它们迁移到外部的关系型管理系统里去以便进一步展示或共享[^3]. 下面给出了一段简单的 sqoop 导入脚本样例: ```bash sqoop export \ --connect jdbc:mysql://localhost:3306/trafficdata \ --username root \ --password secret_password \ --export-dir /path/to/exported/data/in/HDFS \ --table target_table_name_in_mysql \ --fields-terminated-by '|'; ``` 以上就是关于如何运用 Apache Hive 技术栈来进行网约车领域的大规模数据分析的一些基本介绍及其实践案例分享。 ```python # Python 脚本示例：自动化运行 HiveQL 脚本 from pyhive import hive conn = hive.Connection(host="localhost", port=10000, username="hdfs") cursor = conn.cursor() query = """ SELECT * FROM createorder LIMIT 10; """ cursor.execute(query) for result in cursor.fetchall(): print(result) ```