- 博客(23)
- 收藏
- 关注
原创 hiveql列转行使用explode的注意事项-null值处理
一、订单表如下:order_id product_name 1 铅笔,苹果,抽纸 2 3 苹果,草莓,猕猴桃 二、统计每种商品被购买次数,需要将product_name列转行,其中order_id等于2的是异常数据product_name为null。如果写成下面这样,一条结果都没有:-- explode里面的字段不能为null,否则一条数据结果记录都没有了select product_name_element -- 产品名称...
2020-05-22 14:11:10
1311
2
原创 计算截止每个时间点的累计值
-- 计算每个公司每个月的累计值select t.year, t.month, companyid, companyname, sum(amount) over(partition by companyid, companyname,year order by t.month) amountfrom ( select t.year, t.month, ...
2018-07-03 11:04:36
4831
原创 Statement与PreparedStatement的区别
当重复执行多次一个sql,而只是参数不同时,执行多少次sql一、Statement为一条Sql语句生成执行计划Statement就会生成多少个个执行计划,而且每次都是从零开始执行,效率不高;Statement会将变量直接用于sql,这点也不安全。二、PreparedStatement只生成一个执行计划而PreparedStatement只生成一次执行计划,对sql语句进
2017-07-27 11:07:29
225
转载 jdbc的数据库驱动类DriverManager.getConnection()详解
1、Oracle8/8i/9i数据库(thin模式) Class.forName(“oracle.jdbc.driver.OracleDriver”).newInstance(); String url=”jdbc:oracle:thin:@localhost:1521:orcl”; //orcl为数据库的SID String user=”test”; String passwo
2017-07-27 10:53:14
1946
转载 写一个shell脚本利用wget抓取股票历史数据
今天,大数据部老大交给我一项任务——抓取股票历史数据。于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具。我已经被深深震撼到了。下面叙述今天的一些过程,还是比较坎坷的。 首先,我利用公司现在存在的股票数据,使用hive查询所有的股票代码并导入本地:hive -e "use stock;select distinct secucode from t_sto
2017-07-26 18:39:10
885
转载 编写shell脚本遇到的问题
运行shell脚本提示“syntax error near unexpected token for((i=0;i原因是因为Linux下的换行符是 \n 而你在secureCRT或者其他工具编写shell脚本的时候,使用的是window下的换行符:\r\n所以需要设置一下文件的规范:在vim的命令模式下输入::set fileformat=unix:wq即可!
2017-07-26 16:20:45
367
转载 hadoop启动步骤
一、ssh的启动ssh localhost二、hadoop的HDFS的格式化bin/hadoop namenode -format三、hadoop的start-all.sh的启动bin/tart-all.sh四、hadoop的datanode的启动bin/hadoop-daemon.sh start datanode五、hadoop的tasktracker的启动
2017-07-26 14:41:22
637
原创 mvn常用命令
打包:mvn package编译:mvn compile编译测试程序:mvn test-compile清空:mvn clean运行测试:mvn test生成站点目录: mvn site生成站点目录并发布:mvn site-deploy安装当前工程的输出文件到本地仓库: mvn install
2017-07-26 14:36:20
236
转载 HDFS的java接口——简化HDFS文件系统操作
package com.quanttech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;/** * @topic HDFS文件操作工具类 * @author ZhouJ *
2017-07-26 14:16:38
247
转载 Java开发中各种集合框架简介
在大数据MapReduce作业开发中,我们经常会遇到一些大小表的join,这是如果这个小表足够“小”的话,我们可以使用进行“map-join-side”,这要就可以有效的降低reduce端的压力,但是在常用的JDK的集合中的Map有些许鸡肋,因此,各路大神们针对这个问题开发出了不同的集合框架,用以替换原始集合,下面我们具体介绍几种常用的集合框架:首先,我们设想了一个场景——计算不同事业部015
2017-07-26 14:12:47
215
原创 hql-行列转换
行转列 hive -e ” select id,word from ( select ‘123’ as id,’java,c,php’ words from file_cto_user limit 1 ) ta lateral view explode(split(words,’,’)) uu
2017-07-25 18:32:19
961
原创 shell常用命令
一、分割字符串指定分隔符“@”IFS=”@” aa=”a@b@c@d@e” for element in aadoecho−n“aa do echo -n “element&” done;二、后续添加…..
2017-07-25 18:21:28
241
原创 hive-组内排序取前100
每个mod按ck_num/exp_num倒序排序取前100 select ‘endweek′,′ckexp′ranktype,mod,groupid,bookid,expnum,cknumfrom(selectmod,(Rank(mod)+1)asrank,groupid,bookid,expnum,cknumfrom(selectmod,split(curl,′/′)[4]groupid,spl
2017-07-25 18:18:03
4711
原创 HIVE-文件操作
一、查询结果->hdfs INSERT OVERWRITE DIRECTORY ‘output’ sql select * from test; (output:结果输出hdfs路径,sql:查询语句,字段间隔符:默认)二、查询结果->hdfs,执行结果以‘\t’分割 insert overwrite directory ‘/home/wyp/Documents/result’ row f
2017-07-25 18:12:34
291
原创 hql-udf方法
一、添加jar包:add jar /data/1/usr/local/hive/jars/serde.jar;二、声明udf方法的引用:CREATE TEMPORARY FUNCTION expid AS 'net.csdn.hive.cf2.ExtractProduct2'接下来就可以在hql语句中使用expid方法了
2017-07-25 17:51:45
402
原创 hadoop命令
压缩中间结果命令:hive -e "SET mapreduce.map.output.compress=true; SET mapred.map.output.compress.codec = org.apache.hadoop.io.compress.SnappyCodec; "hadoop fs -help1. hadoop fs -ls '/home/ask/answer
2017-07-25 17:48:01
275
原创 hive-常用操作及函数
select '我们' from file_cto_user_info limit 1select 1 from file_cto_user_info where 'football' like 'foot____' limit 1--注意:否定比较时候用NOT A LIKE Bselect 1 from file_cto_user_info where NOT 'football'
2017-07-25 17:46:53
490
原创 hiveql--建表
一、创建hive表1、建外表(分区pdate,\t作为字段分隔符,hdfs路径:path):CREATE EXTERNAL TABLE tablename(字段1 string,字段2 string) partitioned by (pdate string)row format delimited fields terminated by '\t'LOCAT
2017-07-25 17:20:40
526
转载 Hadoop MapReduce编程创建maven项目时所用到的pom依赖
junit junit 3.8.1 test org.apache.hadoop hadoop-common 2.6.0 org.apac
2017-07-25 17:17:56
3285
转载 Spark1.3.1 On Yarn的集群搭建
下面给出的是spark集群搭建的环境:操作系统:最小安装的CentOS 7(下载地址)Yarn对应的hadoop版本号:Hadoop的Cloudera公司发行版Hadoop2.6.0-CDH5.4.0(下载地址)Java版本号:JDK1.8(下载地址)Scala版本号:Scala2.10.4(下载地址)Spark版本号:spark-1.3.1-bin-hadoop2.6(下载地
2017-07-25 17:14:17
287
转载 大数据常见问题
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j
2017-07-25 15:58:20
1061
转载 hive函数使用学习笔记
1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。A 所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为
2014-09-10 11:48:31
369
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人