
大数据
狂奔吧蜗牛
专注大数据领域,熟悉Hadoop、Hbase、Hive、Spark、Kudu、Kylin、Kafka、Flumn、Sqoop、ES、数据仓库、Apache Atlas等。
展开
-
大数据踩过的坑——Hive where 条件中 not in 或者 in的隐藏信息
最近查询数据的时候遇到了一个问题,百思不得其解,具体现象如下:select count(1) from idm.idm_table1_s_d where dt = '2020-03-18'结果为:2053683514select count(1) from idm.idm_table1_s_d where dt = '2020-03-18' and col_1 in ('1978004...原创 2020-04-19 21:34:05 · 6377 阅读 · 0 评论 -
Hive解析Json字符串(含json数组)
由于字段内容为Json字符串,随需要用到get_json_object(string json_string, string path),最初只是知道该方法可以解析简单的json字符串,比如:select get_json_object('{"key1":"value1","key2":"value2","key3":"value3"}','$.key1')结果:value1但由于目...原创 2020-04-19 21:11:29 · 4537 阅读 · 1 评论 -
sqoop2启动job时报错 java.lang.ClassNotFoundException: org.codehaus.jackson.map.JsonMappingException解决方案
初次使用Sqoop2,在 start job时出现了一下异常:java.lang.ClassNotFoundException: org.codehaus.jackson.map.JsonMappingException java.net.URLClassLoader.findClass(URLClassLoader.java:382) java.lang.ClassLoader.loa...原创 2018-12-12 15:15:08 · 866 阅读 · 0 评论 -
CDH 环境集成Kudu、Spark2服务方案及相关问题的解决方案
环境:Centos 7 、CDH 5.10.2、 Kudu1.4.0-1.cdh5.12.0.p0.25、Spark 2.2.0.cloudera1-1.cdh5.12.0.p0.142354我用了一天时间重新搭建了一个测试集群,在此过程中其他都很顺利,但是在安装Kudu、Spark2服务的时候遇到了一点问题,在这里记录下。按照官网的说明,CDH 在5.12之后的版本集成了Kudu...原创 2019-03-14 17:39:15 · 864 阅读 · 0 评论 -
hive on spark 调优点
目录yarn配置1. 配置cores2. 配置内存spark配置1. executor内存2. driver内存3. executor数4. 动态executor申请5. 并行度hive配置预启动YARN容器hive on spark 性能远比hive on mr 要好,而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on sp...转载 2019-04-09 10:15:52 · 1386 阅读 · 0 评论 -
Hive UDF实现身份证强校验
工作中需要对Hive表中的身份证号进行强校验,由于最后一位是校验位,因此,简单的正则无法实现,随用UDF实现相关功能。我只是实现了功能,没有做深入的优化,欢迎各位留言,指导下如何优化,不胜感激。源码如下,import org.apache.hadoop.hive.ql.exec.UDF;import java.text.ParseException;import java....原创 2019-04-17 19:36:49 · 2107 阅读 · 0 评论 -
Apache Atlas 2.0.0编译过程中遇到的问题及解决方案
Atlas安装依赖:1、Maven 3.5+,下载安装包解压后配置环境变量即可,详细步骤请自行百度,下载地址:http://maven.apache.org/download.cgi2、Apache Atlas 2.0.0,下载地址http://atlas.apache.org/Downloads.html编译安装过程:可以参考官网教程:http://atlas.apache.org/...原创 2019-06-25 11:55:49 · 4326 阅读 · 21 评论 -
本地Spark连接Hive异常问题
环境:idea spark2.2 hive1.1 maven3场景:本地运行Spark代码,连接Hive集群查询数据:本地设置了SPARK_HOME、SCALA_HOME将hive-site.xml复制到本地的%SPARK_HOME%/conf/路径下代码如下:def main(args: Array[String]): Unit = { val wareho...原创 2019-07-08 18:56:40 · 7209 阅读 · 0 评论 -
Apache Atlas 1.2.0 部署手册
参考:http://atlas.apache.org/1.2.0/InstallationSteps.html说明:本手册基于集群已有组件HBase和ElasticSearch,不使用内嵌的HBase和Solr。依赖:Maven 3.0+,Maven下载地址:http://maven.apache.org/download.cgi JDK 1.8+ 集群已有组件: HBase ...原创 2019-06-30 13:11:42 · 5817 阅读 · 9 评论 -
Apache Atlas 1.2.0 Hive Hook & Bridge配置手册
具体编译部署方法请参阅:Apache Atlas 部署手册参考:http://atlas.apache.org/1.2.0/Configuration.html http://atlas.apache.org/1.2.0/Hook-Hive.html1、修改hive-site.xml方法1:在/etc/hive/conf/hive-site.xml文件中添加如下内容:hiv...原创 2019-06-30 13:19:27 · 5885 阅读 · 5 评论 -
Flink视频教程
最近在学习Flink,我比较喜欢看视频教程,在网上搜了很多,有的是收费的,有多说是免费的,但是下载完去看的时候有需要解密,然后给你个QQ,让你去加,然后付钱。最后我发现Flink中文社区有相关的视频教程,算是比较官方的了。我下载下来了,放在了百度网盘,如果大家需要,可以下载下来看。下载需要5个积分,就当是对我辛苦整理的认可吧。当然,你也可以直接去Flink中文社区下载观看,是免费的。Flink...原创 2019-08-25 18:13:42 · 4789 阅读 · 12 评论 -
Spark java.lang.UnsupportedClassVersionError: xxxxxx: Unsupported major.minor version 52.0 解决方案
在运行Spark程序时,出现如下错误:Exception in thread "main" java.lang.UnsupportedClassVersionError: com/company/bi/spark/UserInfoToHbase : Unsupported major.minor version 52.0 at java.lang.ClassLoader.defineCla...原创 2018-12-07 18:17:11 · 3476 阅读 · 0 评论 -
Hbase Python API Happybase中的Filter
Hbase多种API,我在项目中使用是Happybase。一些常用的操作在Happybase官网都有示例,而我在使用table.scan()方法,传入Filter时,找不到参考,不知道具体的语法。经过一番参考和测试,终于实现了想要的功能。现记录如下,供大家参考。Hbase Filter有很多种,具体可以参考Hbase官网关于Filter的介绍。平时最常用,网上例子最多的Filter就是 S...原创 2018-10-15 18:50:39 · 4780 阅读 · 3 评论 -
用Hive、Impala查询Hbase数据
近期有项目需要向Hbase写入数据,为了测试数据写入是否正常,常用Hbase shell查询数据,但是用起来比较麻烦,看到Clouder官网有关于使用Impala查询Hbase的操作说明,做了简单的尝试,记录如下,供大家参考。环境:CDH 5.10.2、Impala 2.7.0、Hive 1.1.0、Hbase 1.2.0原理:Hive创建外部表,建立与Hbase表的映射关系,从而...原创 2018-10-15 16:03:57 · 3789 阅读 · 0 评论 -
Hive存储格式对比
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。TextFile每一行都是一转载 2018-01-19 10:38:43 · 6686 阅读 · 0 评论 -
大数据踩过的坑——Hive insert
我在对Hive表数据清洗后,使用了如下SQL将结果集插入到新表中: insert into db_name.table_name_1 ( col_1,col2,col3 ) with temp_table_1 as ( select id,col_2 from db_name.table_name_2 where id = condatiti...原创 2018-02-26 10:49:31 · 10079 阅读 · 0 评论 -
大数据踩过的坑——Hive union
我在使用Hive SQL时,一直以关系型数据库SQL的语法写的Hive SQL。当多表union同时需要去重的时候,我是用了如下SQL: select a.col1,a.col2,a.col3 from table_name_1 a union select b.col1,b.col2,b.col3 from table_name_2 b在运行时报错,错误信息为:Error w...原创 2018-02-26 11:14:45 · 7900 阅读 · 0 评论 -
Cloudera Manager集群报警,堆转储目录/tmp 或日志目录/var/log 可用空间小于 5.0 吉字节
在Cloudera Manager上收到报警信息如下:日志目录可用空间 抑制...此角色的 日志目录 所在的文件系统的可用空间小于 5.0 吉字节。 /var/log/hbase(可用:3.4 吉字节 (6.82%),容量:50.0 吉字节)(备注:这里日志目录还可能是 /var/log/spark、 /var/log/hive等。)堆转储目录可用空间 抑制...此角色的 堆转储目录 所在的文件系...原创 2018-03-12 17:52:08 · 10875 阅读 · 5 评论 -
指南:优化Apache Spark作业(第2部分)
说明:借助谷歌翻译,以个人理解进行修改原文地址:https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/在本系列的结语中,了解资源调优,并行性和数据表示如何影响Spark作业性能。在这篇文章中,我们将完成“指南:优化Apache Spark作业(第1部分)”中的内容。我将尽力涵盖所有你想知道的...翻译 2018-03-22 23:43:29 · 263 阅读 · 0 评论 -
Spark任务调优(1)——数据本地化
Spark官网有关于数据本地化的相关介绍:http://spark.apache.org/docs/2.1.0/tuning.html#data-locality本地化说明数据本地化可以对Spark任务的性能产生重大影响。如果数据和操作数据的代码在一块,计算通常会很快。但是如果数据和代码不在一起,就必须将一方移动到另一方。通常,将序列化的代码块从一个地方发送到另一个地方要比发送数据更快,因为代码的...原创 2018-03-23 19:06:45 · 1539 阅读 · 1 评论 -
指南:优化Apache Spark作业(第1部分)
说明:借助谷歌翻译,以个人理解进行修改原文地址:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/学习调整Apache Spark作业以获得最佳效率的技巧。当您通过公共API编写Apache Spark代码和页面时,您会遇到像transformation,action和RDD这样的单词。在...翻译 2018-03-22 00:04:18 · 262 阅读 · 0 评论 -
Apache Kudu建表时报错:The requested number of tablets is over the maximum permitted at creation time (60)
在Kudu中建表时有以下错误信息:ImpalaRuntimeException: Error creating Kudu table 'impala::kudu_pdw.v_checkinfo' CAUSED BY: NonRecoverableException: The requested number of tablets is over the maximum permitted at...原创 2018-05-03 20:39:48 · 2923 阅读 · 1 评论 -
HDFS中Block size的默认大小
关于block size的默认大小,有的说是64 MB,有的说是128 MB。那么具体是从哪个版本由64 MB变成128 MB的?有的说是Hadoop 1.X版本是64MB,2.X版本是128MB,有的说Apache Hadoop 是64MB,Clouder Hadoop是128MB。我闲来无事,为了确认上述问题的答案,从Hadoop的官网上看了各个版本的说明文档中关于 Data Blocks 的...原创 2018-06-06 11:13:07 · 48703 阅读 · 4 评论 -
Kudu在使用过程中的各种限制(官方)
Kudu在使用过程中有各种限制,或者说叫注意事项,我结合官方文档和自己的经验进行了如下总结。Schema主键表创建后,主键不能修改。必须删除重建表指定新的主键。主键列必须在非主键列之前主键列的值不能使用UPDATE函数修改。如果要修改主键的值只能删除该行重新插入。DOUBLE、FLOAT或BOOL类型的列不能作为主键,此外,主键列必须为NOT NULL。不支持自动生成的主键(如自增列)组合主键的所...原创 2018-07-01 15:29:55 · 12069 阅读 · 1 评论