数据分析（hadoop，hive，Linux）常用操作

最新推荐文章于 2023-11-15 13:50:03 发布

bao_William

最新推荐文章于 2023-11-15 13:50:03 发布

阅读量789

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop 文章标签： hadoop hdfs linux

本文链接：https://blog.youkuaiyun.com/u012295035/article/details/54861406

Hadoop 专栏收录该内容

3 篇文章

订阅专栏

1、远程Linux机器登录

ssh username@地址 enter 密码
或者使用securitycrt软件

2、HDFS常用命令

hadoop fs -ls /user/fangmt 查看文件路径
hadoop fs -cat /user/fangmt/filename.txt | more 查看文件的内容
hadoop fs –text /user/fangmt/*.gz | more 查看被压缩的文件的内容
hadoop fs -du -h /user/fangmt 查看目录下各个文件大小

hadoop fs -put input1.txt当前路径文件 /tmp/input（上传路径）从服务器本地上传文件至hdfs
将本地的”当前路径”下的input1.txt上传到当前机器所在的hadoop的云存储环境的/tmp/input中
Hadoop fs -put filename hdfs

hadoop fs -help ls 可以参看hdfs上的大部分命令，此处为查看 ls 命令的功能

3、hdfs dfs -du -h 输出三列数据的含义

命令 hdfs dfs -du -h /data/
结果 102.3 M 307.0 M /data/
–第一列表示该目录下总文件大小
–第二列表示该目录下所有文件在集群上的总存储大小，和你的副本数相关，我的副本数是3 ，所以第二列的是第一列的三倍（第二列内容=文件大小*副本数）
–第三列表示你查询的目录

4、HIVE命令

hive详解：http://www.cnblogs.com/HondaHsu/p/4346354.html

创建数据库
hive> CREATE DATABASE name

查看所有数据库、表
hive> show databases;
hive> show tabkes;

5、其他命令

jupyter启动：cmd> jupyter notebook

6、其他

ssh登陆后；
ll查看当前文件夹内容；
pwd查看当前目录路径；
cd ~转到用户目录，用户目录是分配账号时分配给我的目录；
which查找命令所在的位置；
tab自动补全命令；
touch后面跟文件，当前路径如果有这个文件，则改变该文件的时间戳，如果当前路径没有这个文件就新建一个，功能是新建文件。mkdir是新建文件夹。
rm a.c 删除a.c文件，是否删除，y，文件删除无法恢复。谨慎使用。
mv a.c ~/trash/ 将a.c文件移动到用户目录的trash文件夹。
cp a.log a.log2 将a.log复制成a.log2，所有文件都可以带目录。

ll 只查看当前目录下的文件和文件夹，可带参数查看其它目录。
tree 查看当前目录下的文件和文件夹的树状结构，可带参数查看其它目录。

man查看帮助文档例如，man touch， man signal。
ps aux查看正在跑的进程。第二列的数字是pid
ps aux | grep python 搜索含Python的那一行。|管道符，前一个的输出是后一个的输入。
kill -9 31606 终止该进程，结束死循环。-9是强制杀。先kill，不行再-9。ps aux，kill不认目录。

less 文件查看文件内容按键vim一样
文件里面搜索 /搜索内容 enter，q退出。
cat 文件把文件内容打印到标准输出，如果文件内容很大会不停的打印，直到c-c退出。

组合命令：
cat test.java | grep -n xxx 打印含xxx的那几行，-n行号
cat test.java | grep -n | wc -l wc是Wordcount -l多少行（man wc）

重定向：
cat test.java | grep -n ty > a.log 将含ty的行覆盖重写到a.log，>是重定向，覆盖重写，>>是追加。
类似将执行文件执行出来的结果保存到a.log里面去。（输出）（标准输出）

Linux有两种输出，一个标准输出（见上例），一个错误输出（报错信息）。
cat test.java > a.log 2>&1 一般要加上2>&1，用来讲标准输出和错误输出都保存到a.log里去。

echo 回声，输入什么就输出什么
echo xxx >> a.log 将xxx追加到a.log
tailf a.log 输出尾巴，如果有新的东西追加到a.log，则tailf会一直蹦出来尾巴上新的东西。tailf设计成会一直停在那里，知道c-c退出。

tail test.java
tail a.log
查看文件的尾巴。一下子就可以执行完。

c-f 向下翻页；
c-b向上翻页；
j向下走，k向上走，h向左，l向右，q是退出；

c-c发送信号强制打断进程

7、终端

crosh shell+secure shell=远程登录Linux
该终端的好处：双击（选中）复制，Ctrl+shift+v粘贴

8、first

远程登陆机器
linux下面有一块
hadoop是一个软件，隔离出单独的文件管理系统，hive用来针对hadoop上的数据进行结构化操作。

hadoop是一块命令，hive 是一块命令，可以在linux中传文件到hadoop里去.

进入hive，建表，将文件数据导入到表中，
hive> load data （local） inpath ‘/home/hadoop/ziliao/stu.txt’ overwrite into table tb_person;
加载本地数据，同时给定分区信息
hive> load data （local） inpath ‘/home/hadoop/ziliao/stu.txt’ overwrite into table tb_stu partition (ds=’2008-08-15’);
如果导入的数据路径在hdfs上，则不需要加local关键字，如果导入的数据在linux上，则路径需要加上local关键字。

load data inpath ‘/user/tiany/test1’ overwrite into table test_ty;执行成功