1、远程Linux机器登录
ssh username@地址 enter 密码
或者使用securitycrt软件
2、HDFS常用命令
hadoop fs -ls /user/fangmt 查看文件路径
hadoop fs -cat /user/fangmt/filename.txt | more 查看文件的内容
hadoop fs –text /user/fangmt/*.gz | more 查看被压缩的文件的内容
hadoop fs -du -h /user/fangmt 查看目录下各个文件大小
hadoop fs -put input1.txt当前路径文件 /tmp/input(上传路径) 从服务器本地上传文件至hdfs
将本地的”当前路径”下的input1.txt上传到当前机器所在的hadoop的云存储环境的/tmp/input中
Hadoop fs -put filename hdfs
hadoop fs -help ls 可以参看hdfs上的大部分命令,此处为查看 ls 命令的功能
3、hdfs dfs -du -h 输出三列数据的含义
命令 hdfs dfs -du -h /data/
结果 102.3 M 307.0 M /data/
–第一列表示该目录下总文件大小
–第二列表示该目录下所有文件在集群上的总存储大小,和你的副本数相关,我的副本数是3 ,所以第二列的是第一列的三倍 (第二列内容=文件大小*副本数)
–第三列表示你查询的目录
4、HIVE命令
hive详解:http://www.cnblogs.com/HondaHsu/p/4346354.html
创建数据库
hive> CREATE DATABASE name
查看所有数据库、表
hive> show databases;
hive> show tabkes;
5、其他命令
jupyter启动:cmd> jupyter notebook
6、其他
ssh登陆后;
ll查看当前文件夹内容;
pwd查看当前目录路径;
cd ~转到用户目录,用户目录是分配账号时分配给我的目录;
which查找命令所在的位置;
tab自动补全命令;
touch后面跟文件,当前路径如果有这个文件,则改变该文件的时间戳,如果当前路径没有这个文件就新建一个,功能是新建文件。mkdir是新建文件夹。
rm a.c 删除a.c文件,是否删除,y,文件删除无法恢复。谨慎使用。
mv a.c ~/trash/ 将a.c文件移动到用户目录的trash文件夹。
cp a.log a.log2 将a.log复制成a.log2,所有文件都可以带目录。
ll 只查看当前目录下的文件和文件夹,可带参数查看其它目录。
tree 查看当前目录下的文件和文件夹的树状结构,可带参数查看其它目录。
man查看帮助文档 例如,man touch, man signal。
ps aux查看正在跑的进程。第二列的数字是pid
ps aux | grep python 搜索含Python的那一行。|管道符,前一个的输出是后一个的输入。
kill -9 31606 终止该进程,结束死循环。-9是强制杀。先kill,不行再-9。ps aux,kill不认目录。
less 文件 查看文件内容 按键vim一样
文件里面搜索 /搜索内容 enter,q退出。
cat 文件 把文件内容打印到标准输出,如果文件内容很大会不停的打印,直到c-c退出。
组合命令:
cat test.java | grep -n xxx 打印含xxx的那几行,-n行号
cat test.java | grep -n | wc -l wc是Wordcount -l多少行(man wc)
重定向:
cat test.java | grep -n ty > a.log 将含ty的行覆盖重写到a.log,>是重定向,覆盖重写,>>是追加。
类似将执行文件执行出来的结果保存到a.log里面去。(输出)(标准输出)
Linux有两种输出,一个标准输出(见上例),一个错误输出(报错信息)。
cat test.java > a.log 2>&1 一般要加上2>&1,用来讲标准输出和错误输出都保存到a.log里去。
echo 回声,输入什么就输出什么
echo xxx >> a.log 将xxx追加到a.log
tailf a.log 输出尾巴,如果有新的东西追加到a.log,则tailf会一直蹦出来尾巴上新的东西。tailf设计成会一直停在那里,知道c-c退出。
tail test.java
tail a.log
查看文件的尾巴。一下子就可以执行完。
c-f 向下翻页;
c-b向上翻页;
j向下走,k向上走,h向左,l向右,q是退出;
c-c发送信号强制打断进程
7、终端
crosh shell+secure shell=远程登录Linux
该终端的好处:双击(选中)复制,Ctrl+shift+v粘贴
8、first
远程登陆机器
linux下面有一块
hadoop是一个软件,隔离出单独的文件管理系统,hive用来针对hadoop上的数据进行结构化操作。
hadoop是一块命令,hive 是一块命令,可以在linux中传文件到hadoop里去.
进入hive,建表,将文件数据导入到表中,
hive> load data (local) inpath ‘/home/hadoop/ziliao/stu.txt’ overwrite into table tb_person;
加载本地数据,同时给定分区信息
hive> load data (local) inpath ‘/home/hadoop/ziliao/stu.txt’ overwrite into table tb_stu partition (ds=’2008-08-15’);
如果导入的数据路径在hdfs上,则不需要加local关键字,如果导入的数据在linux上,则路径需要加上local关键字。
load data inpath ‘/user/tiany/test1’ overwrite into table test_ty;执行成功