
hive
文章平均质量分 51
生命不息丶折腾不止
这个作者很懒,什么都没留下…
展开
-
Hive中常用SerDe介绍
SerDe 是Serializer 和 Deserializer 的简称。它是 Hive用来处理记录并且将它们映射到 Hive 表中的字段数据类型。原创 2022-07-04 22:55:32 · 3435 阅读 · 1 评论 -
tez和spark常用参数调优
1、tez参数2、spark参数3、spark小文件解决思路:原创 2022-06-22 11:30:06 · 1254 阅读 · 0 评论 -
解决: Java Maven项目中的Scala类混编编译错误
1、问题描述:Java Maven项目中调用Scala类GpsParserNew,编译是出现错误Tuple11 tuple11 = com.vdian.utils.GpsParserNew$.MODULE$.getAddressWithTownVillage(res);报错:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on pr原创 2022-01-14 13:49:13 · 1088 阅读 · 0 评论 -
Hive - 自定义UDF - HttpClient依赖冲突
1、报错信息:# FAILED: SemanticException [Error 10014]: Line 2:22 Wrong arguments '"蔡å¾å¤asda EXO"': org.apache.hadoop.hive.ql.metadata.HiveException: Unable to execute method public static java.lang.String GetStarKeyWord.evaluate(java.lang.String) on原创 2021-06-16 20:12:27 · 1079 阅读 · 2 评论 -
hive - udf - regexp_extract - 使用注意点
hive - udf - regexp_extract - 使用注意点hive函数:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1、匹配不上返回的是 ‘’ 空,而非null原创 2021-05-30 17:39:03 · 555 阅读 · 1 评论 -
linux下mysql中文乱码(中文问号)解决办法
安装完的MySQL的默认字符集为 latin1 ,为了要将其字符集改为用户所需要的(比如utf8),就必须改其相关的配置文件;由于linux下MySQL的默认安装目录分布在不同的文件下;不像windows一样放在同一目录下,只需修改其中的my.ini文件,重起后就生效了;所以先来看看linux下MySQL的数据库文件、配置文件和命令文件分别在不同的目录 : 1、数据库目录,其所创建的数据库文件都在...原创 2018-06-01 10:45:43 · 21534 阅读 · 6 评论 -
Hive创建表时添加中文注释后乱码问题
创建数据表时我们经验会添加一些中文注释到表里面方便识别,最近在测试hive的时候,发现添在Hive创建表时添加COMMENT时的中文注释就会出现乱码,如下:解压思路:1、查看存放Hive元数据信息的数据库表字符集;是否因为字符集问题可以看出,由于表使用的是默认的latin1字符集,所以中文显示不出来,应该使用utf8;但是很奇怪,我整个Mysql都是使用utf8的字符集;所以这个与Mysql的配置...原创 2018-06-01 10:37:26 · 18229 阅读 · 2 评论 -
HIVE中get_json_object与json_tuple使用
hive中提供了两种针对json数据格式解析的函数,即get_json_object(…)与json_tuple(…),理论不多说,直接上效果示意图:假设存在如下json数据对象,若使用hive环境可这么设置:set hivevar:msg={"message":"2015/12/08 09:14:4", "client": "10.108.24.253", "server": "passp.转载 2018-05-10 18:58:01 · 2043 阅读 · 0 评论 -
hive1.1 启动异常 :Caused by: MetaException(message:Version information not found in metastore. )
配置完成Mysql存储元数据信息,启动异常:Caused by: MetaException(message:Version information not found in metastore.Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiat原创 2018-04-10 19:33:02 · 3924 阅读 · 0 评论 -
hive表的存储格式 : ORC格式的使用
hive表的源文件存储格式有几类:1、TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看2、SEQUENCEFILE 一种Hadoop API提供的二进制文件,使用方便、可分割、可压缩等特点。 SEQUENCEFILE将数据以< key,value>的形式序列化到文件中。序列化和反序转载 2018-01-03 16:28:55 · 7700 阅读 · 1 评论 -
Hive学习之抽样(tablesample)
当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。Hive支持桶表抽样和块抽样,下面分别学习。所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的表。桶表抽样的语法如下:table_sample: TABLESAMPLE (BUCKET x OUT转载 2018-01-03 15:41:03 · 16367 阅读 · 2 评论 -
Hive生产脚本常用参数设置[合并小文件,压缩文件,动态分区,数据倾斜...]
Hive生产脚本常用参数设置[合并小文件,压缩文件,动态分区,数据倾斜...]原创 2017-09-13 11:12:18 · 1915 阅读 · 0 评论 -
UDTF实例讲解
UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, close三个方法。原创 2017-09-11 11:57:46 · 2329 阅读 · 0 评论 -
UDF函数:英文格式日期转换
package com.adtime.udf.main;/** * User:leen * Date:2017/3/24 0024 * Time:9:10 */import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;import org.apache.commons.la原创 2017-04-13 14:53:35 · 1837 阅读 · 0 评论 -
UDF函数:日期加减
UDF:日期加减原创 2017-01-03 15:50:52 · 894 阅读 · 0 评论 -
hive配置官网翻译2017版(更新中...)
hive.execution.engine 默认值:mr 添加时间:Hive 0.13.0 with HIVE-6103 and HIVE-6098 — 选择执行引擎。选项: mr (Map reduce, 默认值)、tez ( Hadoop 2 only)、or spark (Hive 1.1.0 版本及之后)。 mapred.reduce.tasks 默认值:-1翻译 2017-02-06 17:05:41 · 1493 阅读 · 1 评论 -
Hive配置文件中配置项的含义详解(收藏版)
这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用。更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录转载 2017-02-07 16:33:16 · 927 阅读 · 0 评论 -
hive之mapjoin
在Hive中,common join是很慢的,如果我们是一张大表关联多张小表,可以使用mapjoin加快速度。 mapjoin主要有以下参数:hive.auto.convert.join : 是否自动转换为mapjoinhive.mapjoin.smalltable.filesize : 小表的最大文件大小,默认为25000000,即25Mhive.auto.convert.join.noco转载 2017-02-06 15:29:19 · 1205 阅读 · 0 评论 -
Hive日期格式转换用法
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string 说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式 举例:Hive> select from_unixtime(1483000631,'yyy转载 2016-12-29 17:13:59 · 11088 阅读 · 1 评论