
大数据
明月不归尘
这个作者很懒,什么都没留下…
展开
-
2020-12-16
spark-sql 读取hive报出Caused by: java.lang.NullPointerException**20/12/16 14:37:27 ERROR SparkSQLDriver: Failed in [select student_id from tmp.tmp_user_device_log_info_temp where dt = '2020-10-02' limit 10]java.lang.RuntimeException: serious problem** at or原创 2020-12-16 14:59:01 · 497 阅读 · 0 评论 -
java判断时间格式是否为指定格式,时间是否正确
/** * * @param strDate 时间 * @param formatter new SimpleDateFormat("yyyy-MM-dd"),new SimpleDateFormat("yyyy-MM-dd yyyy-MM-dd HH:mm:ss") * @param legalLen 10 , 19 * @return */ private static boolean isDate(String strDate,Da.原创 2020-09-14 12:06:33 · 1449 阅读 · 0 评论 -
hdfs常用命令:一
文件操作(1) 列出HDFS下的文件hdfs dfs -ls /(2) 列出HDFS文件下名为users的文档中的文件hdfs dfs -ls /users(3) 上传文件将hadoop目录下的test01文件上传到HDFS上并重命名为test02:hdfs dfs -put test01 /test02(4) 文件被复制到本地系统中将HDFS中的tes...原创 2018-08-21 16:11:25 · 473 阅读 · 0 评论 -
spark将数据加载到postgresql中的Scala实现
spark将数据加载到postgresql中: 方法一:def save2Postgresql(jdbcDf: DataFrame, url: String, tableName: String) = { jdbcDf.insertIntoJDBC(url, tableName, false) }方法二:def save2Postgresql(jdbcDf: Da...原创 2018-08-17 12:12:29 · 2027 阅读 · 0 评论 -
Hive中关于日期函数使用
1.时间戳函数 日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数 获得当前时区的UNIX时间戳: select unix_timestamp(); 1533716607将指定的时间转为UNIX时间戳 :select unix_timestamp('2018-08-08 16:22:01'); 1533716521将指定的时间转为UNIX时间戳: sele...原创 2018-08-08 16:43:41 · 5490 阅读 · 0 评论 -
Hadoop Yarn 的三种资源调度器详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。 一、调度器的选择在Yarn中有三种调...转载 2018-08-08 16:19:23 · 8478 阅读 · 0 评论 -
hive函数大全
hive的内置方法很多,特被容易忘,记录在次方便使用。 1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE 。 A <> B 所有原始类型 如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。 A != B 所有原始类型 如果A不等于B返回TRU...转载 2018-08-02 11:18:50 · 582 阅读 · 0 评论 -
Hive修改表语句
1.ALTER TABLE table_name RENAME TO new_table_name; 上面这个命令可以重命名表,数据所在的位置和分区都没有改变。2:改变列名/类型/位置/注释1.ALTER TABLE table_name CHANGE[CLOUMN] col_old_name col_new_name column_type[CONMMENT col_conmment]...转载 2018-08-09 15:42:52 · 2105 阅读 · 0 评论 -
hive 和spark sql 中日期相关使用技巧(一)
hive 和spark sql 中日期相关使用技巧 常用日期/时间相关字段、类型、及示例:类型包括:BIGINT,TIMESTAMP和STRING 下面是这几种类型之间相互转换的方法:BIGINT转TIMESTAMP:from_unixtime(time/1000) TIMESTAMP转BIGINT:unix_timestamp(time)*1000 BIGINT转STRING(y...原创 2018-07-30 13:11:17 · 3141 阅读 · 0 评论 -
sparksql减少输出数据中的小文件数量
由于项目中开发用到sparksql ,将一个大表的数据查询后插入到另一种表中,此时数据令也不是太大,但是产生了200多个小文件,占用namenode资源,为了改善该情况使用,将hive中的表加载为一个df,然后重新分区+缓存+注册为临时表,在进行查询,插入操作,此时文件为20个关键代码如下:...........val aDF =hiveContext.原创 2017-11-30 14:19:53 · 9050 阅读 · 0 评论 -
Hive动态分区需要注意的参数
使用Hive动态分区需要注意设定以下参数:1.是否开启动态分区功能,默认false关闭。 默认值:falsehive.exec.dynamic.partition =false使用动态分区时候,该参数必须设置成true;hive.exec.dynamic.partition =true2.动态分区的模式: 默认值:stricthive.exec.dynamic.part...原创 2018-07-05 16:56:17 · 1835 阅读 · 0 评论 -
hive表的建表语句批量获取
有时hive中的一个数据库中有大量的表,对表的建表语句备份就显得重要和麻烦了,但是是使用hive的命令和shell脚本会很容易实现1.导出所有表的名称(可以指定数据库名称)hive -e "use dbName;show tables;" &gt; tablesName.txt2.使用hive内置语法导出hive表的建表语句,这里使用的是一个shell#!/bin/bash ...原创 2018-07-05 15:44:47 · 4570 阅读 · 0 评论 -
Hive计算引擎的切换方法
1、配置mapreduce计算引擎set hive.execution.engine=mr;2、配置spark计算引擎set hive.execution.engine=spark;3、配置tez 计算引擎set hive.execution.engine=tez;原创 2018-07-05 15:28:16 · 15668 阅读 · 0 评论