- 博客(42)
- 收藏
- 关注
原创 Hive 查询数据导出到本地目录或 hdfs 的方法
Hive 查询数据导出到本地目录或 hdfs 的方法说明在最近的项目中,需要将最终生成的 Hive 表数据导出到文件中,具体实现请参见下方 SQL。查询结果导入到 hdfs 文件一般方式:insert overwrite directory '/hive/test_data' select * from test; 自定义输出样式方式:insert overwrite directory '/hive/test_data' row format delimite...
2022-05-18 21:42:45
4196
原创 hadoop分布式互信密钥
主机hadoop1011.把全部主机.ssh全部删除自带的.ssh2.ssh-keygen -t rsa3.ssh-coip-id hadoop1014.ssh-coip-id hadoop1024.ssh-coip-id hadoop103主机hadoop1021.ssh-coip-id hadoop1012.ssh-coip-id hadoop1023.ssh-coip-id hadoop103主机hadoop1031.ssh-coip-id hadoop1012.ss
2022-03-20 21:45:09
2391
原创 spark pom.xml配置
IDEA软件scala版本2.12.11pml.xml <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.12.4</version> </dependency> <dependency&
2022-02-11 09:25:10
1918
原创 route命令参数详解,linux添加删除路由命令 外网同内网也通解决方法
route del -net 172.17.0.0 netmask 255.255.0.0刚装完麒麟系统 有个 docker占了路由 要删除一下具体详情请看https://blog.youkuaiyun.com/hzhsan/article/details/44753533
2021-01-27 18:15:17
1144
原创 hive词频统计
split以逗号分开,空格和\s都可以select split(“kunhua kunhua minghao yanda zhulei zhengyan zhulei”," ");expeode爆开select explode(split(“kunhua kunhua minghao yanda zhulei zhengyan zhulei”," “));以分组的统计个数select word,count(*) from (select explode(split(“kunhua kunhua
2020-06-29 19:41:11
420
原创 hive复杂类型建表插值
[基本类型] TINYINT //byte 1 SMALLINT //short 2 INT //int 4 BIGINT //long 8 FLOAT //float 4 DOUBLE //double 8 DECIMAL //decimal 精度和刻度decimal(10,3) BINARY //二进制 BOOLEAN //TRUE | FALSE STRING //字符串 CHAR //定长<= 255 10补空格 VARCHA
2020-06-29 19:35:57
434
原创 使用shell脚本写出乘法
echo "pleases input 2 numbers.\n" #请输入两个数read -p "first numbers:" first #请输出第一个数read -p "second numbers:" secon #请输入第二个数total=$(($first*$secon)) #第一个数*第二个数赋值给totalecho -e "\n $first * $secon = $total" #输出echo -e $firs
2020-06-24 08:53:38
9124
1
原创 使用shell创建前三天的文件
echo -e "I will touch 3 files." #纯碎显示信息read -p "please input one filename"\n filename #提示输入fname=${filename:-"filename"} #开始判断是否有配置文件date1=$(date --date="2 days ago" +%Y%m%d) #前两天日期date2=$(date --date="1 days ago" +%Y%m%d) #前一天日期date3=$(dat
2020-06-24 08:51:45
399
原创 awk文本处理
awk命令内置变量:NR多行,NF多少列;FS分隔字符,默认是空格。输出行 输出列 $0代表当前行数last -n 5 | awk '{print "line num=" NR "\t total columns=" NF $0}'FS以:切分,取第三个小于10就输出第一个列和第三个列cat /etc/passwd | awk 'BEGIN {FS=":"};$3 < 10{print $1 "\t" $3}'awk使用变量、运算、逻辑判断统计每一行的总薪资...
2020-06-24 08:49:34
210
原创 sed文本处理
为什么要用sed?sed在写脚本的是有分析awk当我们考虑数据量过大的时候我们vi编辑数据就会大大增加效率问题所以我们可以使用sed来提升效率sed本身也是一种管道命令,也可以将数据增删改查;awk是一个文本处理分析工具,比较强大;-n 安静模式;只显示对数据操作的数据;-e 直接在命令行模式进行sed的动作编辑;-f 直接将sed动作写在一个文件内;-i 直接修改读取文件的内容,而不是由屏幕输出;添加数据2a或者2i 可以灵活多用;sed '2a0000' 1.txt a.
2020-06-23 22:49:41
307
原创 shell常用文件处理命令
重定向就是分别代表 标准输入 和标准输出标准输入:代码为0,使用 < 或者 <<;标准输出:代码为2,使用 > 或者 >>;标准错误输出:代码为2,使用2> 或 2>>;标准输入:键盘输入文本输出到aa.txt文件中,将bb.txt里面的数据放到aa.txt中cat >aa.txt; cat > aa.txt < bb.txt 键盘输入数据遇到g自动退出cat > catcat <<"g"标准输出
2020-06-23 09:51:02
376
原创 shell变量的使用
写shell脚本第一行 #!/bin/bash临时路径的快捷方式:alias hconf='cd /usr/local/hadoop/etc/hadoop/'修改永久路径快捷方式:vim .bashrc插入alias hconf='cd /usr/local/hadoop/etc/hadoop' shell(script):shell脚本,shell命令,判断、循环、多台。type:判断是否为内部命令 \ 反斜杠 表示一句话没说完echo $输出变量unset 取消变量单引号赋值
2020-06-23 09:49:22
189
原创 Linux解决Tab键无法自动补全
Linux解决Tab键无法自动补全的问题安装bash-completion包这个包提供Tab键自动补全功能yum install -y bash-completion安装bash-completion-extras包这个包提供补全时提示备选命令功能yum install -y bash-completion-extras安装完成后重启即可启用顺便提供一个小技巧tab补全时经常会有滴滴声超烦修改**/etc/inputrc**文件,重启即可set bell-style none
2020-06-22 19:04:15
4015
原创 oracle练习题
7例题: 现在要求查询出公司的雇员雇佣情况,希望通过数据库可以查找到每个雇员的编号、姓名、基本工资三个信息进行浏览select empno,ename,sal from emp现在要求查询公司中所有雇员的职位信息select ename,job from emp要求通过数据库查询出所有雇员的编号、雇员姓名和年基本工资、日基本工资,以作为年终奖金的发放标准select empno,enam...
2020-03-05 13:55:59
5762
原创 Oracle 50道题建表语句
create table student(sno varchar2(10),sname varchar2(10),sage date,ssex varchar2(10))insert into student values(01,‘赵雷’,to_date(‘1990-1-1’,‘YYYY-MM-DD’),‘男’);insert into student values(02,‘钱电’,...
2020-03-05 13:54:05
306
原创 java jdbc编程-5种常见操作
import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.Statement;public class Jdbc1 {public static void main(String[] args) throws Exception{//1> 加载 mysql驱动// 加载mysql 数据库的具体代...
2020-02-18 16:12:38
167
原创 java jdbc操作查询所有学生的信息
jdbc概述1、通过使用JDBC API,Java程序可以非常方便地操作各种主流数据库,这是是Java语言的巨大魅力所在。而且由于Java语言的跨平台特性,所以使用JDBC API所编写的程序不仅可以实现跨数据库,还可以跨平台,具有非常优秀的可移植性。2、程序使用JDBC API以统一的方式来连接不同的数据库,然后通过Statement对象来执行标准SQL语句,并可以获得SQL语句访问数据库的...
2020-02-17 14:29:21
6469
原创 Transformation操作
object Transformation {def main(args: Array[String]): Unit = {//权限被拒绝加下面代码System.setProperty("HADOOP_USER_NAME", "root")val conf = new SparkConf() .setAppName("WordCount2000") .setMaster("loc...
2020-01-11 20:47:53
948
原创 Actions触发操作
package Scalaimport org.apache.spark._import org.apache.spark.rdd.RDDobject Actions {def main(args: Array[String]): Unit = {val conf = new SparkConf() .setAppName("WordCount2000") .setMaster(...
2020-01-10 12:06:03
668
原创 spark单词统计以及排序
object RddT {//单词统计def main(args: Array[String]): Unit = {//权限被拒绝加下面代码System.setProperty(“HADOOP_USER_NAME”, “root”)// 实例化配置val conf = new SparkConf()// 指定 spark 任务名称conf.setAppName(“Spark Pi”...
2020-01-08 11:14:13
806
原创 MapReduce单词统计详细介绍
提取数据链接:https://pan.baidu.com/s/1cG7hkUQjoIGgXrpYtOeRYQ提取码:4vc4package mr;// map 阶段 并行读取数据处理数据, 一个map默认读取 128M 的数据 13200 10// map 阶段 并行读取数据处理数据, 一个map默认读取 128M 的数据 13200 20// map 阶段...
2020-01-05 20:02:34
591
原创 Scala中Map集合
package Scala// Map 集合操作 // 与java里的 map 是一样的 // 都叫字典索引 // 都是 hash 表数据object MapTest {def main(args: Array[String]): Unit = {// hashMap// 创建一个 map 集合// val map01 = Map[String,Int]().empt...
2020-01-01 10:52:06
260
原创 Scala数组
package Scalaobject Array1 {def main(args: Array[String]): Unit = {// 打印1到100// for( a <- 1.to(100)){// print(a)// }// 打印1到99 until:函数就是1到99// for (a <- 0.until(100...
2019-12-31 13:08:12
1010
原创 自定义函数
一组数字,如果小于一个亿,就让他以万为单位显示。如果大于一个亿,就让他以亿为单位显示 例如说58270,就显示成5.83万 显示成5.28万create or replace function f_mmj (v1 in number) return varchar2 asv_return varchar2(20);beginif length(v1)>=9 thenv_return...
2019-12-29 20:40:34
162
原创 hadoop离线计算总结
离线计算:离线计算就是HADOOPHADOOP分为计算核心和存储核心两大类,而且HADOOP是完全分布式,并且免费而且支持高并发。HADOOP的存储核心我们称之为HDFS–>HADOOP 分布式文件系统,他是一套独立的文件系统,但是需要依赖我们操作系统为他提供的存储介质才能构成。他有两大部分组成NAMENODE和DATANODE。NAMENODE主要负责元数据的处理,而DATANODE...
2019-12-29 20:14:52
700
原创 3.记录型变量
概念 接受表中的一整行记录,相当于Java中的一个对象 语法:变名称表名%ROWTYPE,例1: v,emp emp%rowtype;————————————————————————————————————————————– Created on 2019/10/11 by WANGK–直询emp表中7839号员工的个人信息,打印姓名和薪水declare–记入类型变量接受一行v_emp...
2019-12-29 20:11:21
498
1
原创 2.引用型变量
引用型变量的好处: 使用普通变量定义方式,需要知道表中列的类型,而使用引用类型,不需要考虑列的类型,使用%TYPEA非常好的编程风格,因为它使得PL/SQL更加灵活,更加适应于对数据库定义的更新。概念变量的类型和长度取决于表中字段的类型和长度通过表名 列名% TYPE指定变量的类型和长度,例如: v_name emp.ename%TYPE;[示例]直询emp表中7839号员工的个人信息,打...
2019-12-29 20:09:40
1046
原创 1.声明变量
变量名称的组成可以有字母、数字、_、$、#等组成;变量的长度最长为30–编写PL/SQL块,输入一个雇员编号,输出这个人的名字和年薪?declarev_empno number;v_ename varchar2(20);v_sal number;beginv_empno:=&empno;select ename,(sal+nvl(comm,0))*12 into v_en...
2019-12-29 20:08:29
308
2
原创 Spark安装及测试
链接:https://pan.baidu.com/s/1PMXP3kishCQcBpxzQHyxcg 提取码:l6n12.0.2版本cd /usr/local/#上传sparktar xf spark-2.0.2-bin-hadoop2.7.tgz mv spark-2.0.2-bin-hadoop2.7 sparkvim /etc/profileexport SPARK_HOME=...
2019-12-28 11:19:06
437
原创 hadoop面试题
1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-value在输出之后会进行一个partition分区操作,默认使用的是hashpartitioner,可...
2019-12-27 11:53:58
185
原创 IDEA软件maven配置
maven主要目的是下载jar包的首相在本地D:\hadoop\bin 上传下面这个文件链接:https://pan.baidu.com/s/1_WBSulextt_mqgV4vP4M4Q提取码:7vt6然后将下面这个文件传到自制定系统盘里maven文件链接:https://pan.baidu.com/s/1o9p7Yht9zZkscbzLa9unUg提取码:goh6将ma...
2019-12-20 21:17:41
251
原创 mapreduce统计气象
气象统计文件如下文件 资源 以及答案如下https://pan.baidu.com/s/17DSIeriyoTxNJF76lEODxw 提取码 3mzf
2019-12-04 18:24:21
255
原创 mapreduce词频统计
创建vim /hello.txt文件添加hello world hadoophello ok hivespark flumehadoop hellohadoop hivestorm hellohbase flumehadoop flumeflume hellohadoop hellohadoop kafkaspark sparkhadoop hbasekafka fl...
2019-12-04 13:03:22
842
原创 搭建三台机器完全分布式
时间同步 https://blog.youkuaiyun.com/weixin_45097166/article/details/103297057三台配置好hosts文件 vim /etc/hosts 192.168.0.101 hadoop1 192.168.0.102 hadoop2 192.168.0.103 hadoop3 #hadoop1为主节点 nam...
2019-12-04 12:52:27
877
原创 本文档是MYSQL-5.6.25/5.7.X MARIADB在CENTOS 6.5 64位版本上安装的文档
经过测试并没有发现问题。安装以前先查看服务器里是否有老版本的MYSQL已经被安装了rpm -qa |grep mysql如果有就删除掉旧版本的MYSQL即可rpm -e (上面那条命令得到的信息) --nodeps一.解压 软连接 改目录名称上传mysql文件mysql-5.6.25-linux-glibc2.5-x86_64.tar.gz到/usr/localcd /usr/l...
2019-11-28 23:56:11
219
原创 ssh免密码登陆
ssh-keygen -t dsa -P '' -f /root/.ssh/id_dsacd /root/.ssh#id_dsa 本机密钥#id_dsa.pub 公钥#将公钥放入访问方的认证文件中:cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys#这是将公钥放入了本机,所以之后远程登陆本机就不需要输入密码想要免密登陆谁,...
2019-11-28 20:54:18
238
原创 Linux创建普通用户
1、创建用户,-m表示同时创建用户家目录sudo useradd -m hadoop2、为创建的hadoop用户设置密码sudo passwd hadoop3、为hadoop用户添加对/etc/sudoers目录的写权限,默认只有root拥有只读权限sudo chmod u+w /etc/sudoers4、在/etc/sudoers文件中找到下面两句#User priv...
2019-11-28 19:13:31
723
原创 centos6 centos7 ntp时间同步
centos7 ntp时间同步 yum install ntp -y#启动 systemctl start ntpd.service#加入开机自启动 systemctl enable ntpd.servicecentos6 ntp时间同步 /etc/init.d/ntpd start#加入开机自启动vim /etc/rc.local/etc/init....
2019-11-28 17:02:20
588
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人