hadoop
文章平均质量分 57
七月流火_2567
人的一切痛苦,都是对自己无能的愤怒!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive小文件过多问题解决
起因数据中台当前有一张流水类表,存在3200个分区,230w个数据文件,150亿条数据,导致该表查询起来及其麻烦,更令人糟心的是,业务人员不懂查询方式,经常有人使用select *的方式查询该表,导致hiveserver2经常炸掉,极大影响集群的使用,因此,我们决定处理掉这个问题。我们来看下是什么原因导致这个问题首先,文件数量和大小会影响Mapper任务的数量,所以小文件越多,mapper任务越多,每个mapper任务会启动一个JVM,所以这些任务初始化和运行会消耗大量资源。而且在NameNode中每原创 2021-01-18 21:06:40 · 1870 阅读 · 4 评论 -
hive整库迁移shell代码
最近在做集群迁移工作,旧生产平台的hive数仓需要迁移到新的平台,因此,需要将hive所有生产库的表都新建一份,手动传太麻烦,搞了个shell脚本读取,读取结果基本可用,就是每个DDL语句最后的location需要用notepadd++的正则匹配的方式干掉,算是个小瑕疵吧,代码如下: #!/bin/bash#填写库名DATABASE=$1#获取表名hive -e "use $DATABASE;show tables;" >> tableName.txt###############原创 2021-01-15 14:04:28 · 347 阅读 · 0 评论 -
Hive 查询结果和insert结果不一致问题排查
Hive 查询结果和insert结果不一致问题排查 1.起因 由于公司业务需要,在做近半年业务数据回补的时候,发现存在部分分区数据不符合业务需要,于是,很想当然的重跑脚本,结果发现该部分数据无法正确过滤; 2.问题描述 在对某张表进行操作的时候,发现where条件后面的 xx is not null 条件不能生效,即 我采用 select的方式能够得到正确的结果,但是,insert时产生的结果却不一致。 3.解决过程 在发现该问题后,首先觉得是is n...原创 2020-06-19 17:15:43 · 3770 阅读 · 7 评论 -
对谓词下推的一点看法
谓词下推 1. 谓词下推概念谓词下推原本是一个关系型数据库中的词语,优化关系 SQL 查询的一项基本技术是,将外层查询块的 WHERE 子句中的谓词移入所包含的较低层查询块(例如视图),从而能够提早进行数据过滤以及有可能更好地利用索引。 2. Hive谓词下推(Predicate pushdown):Hive谓词下推这个词是从关系型数据库借鉴来的,即使对Hive对来说相当于谓词上推。谓词下推的基本思想:尽可能早的处理表达式(expressions),默认产生的执行计...原创 2020-06-11 09:28:30 · 1686 阅读 · 0 评论 -
安装redis出错 /bin/sh: cc: command not found
环境CentOS6.5Redis3.2.10过程在安装Redis时,发现报错原因是缺少gcc环境,导致编译出错,应该先安装好gcc环境,再进行编译[root@es02 redis-3.2.10]# yum install -y gcc-c++安装完成gcc环境后,再进行编译[root@es02 redis-3.2.10]# make居然还有问题经过网上各种查询,原来是之...原创 2019-05-02 17:49:42 · 2820 阅读 · 1 评论 -
详解MapReduce:shuffle过程
MapReduce确保每个Reducer的输入都是按键排序的,系统执行排序,将map输出作为输入传给Reducer的过程被称为shuffle。MAP端map函数开始产生输出时,并不是简单地将它写到磁盘上。这个过程更复杂,它利用缓冲的方式写到内存并出于效率的目的进行预排序。每个map任务都有一个环形缓冲区用于存储任务输出。在默认情况下,缓冲区的大小为100MB,这个值可以通过mapreduce...原创 2019-03-04 23:13:52 · 591 阅读 · 0 评论 -
解决错误:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreException: You have an error in your SQL syntax; check the manual that c...原创 2019-01-08 21:59:14 · 20212 阅读 · 0 评论 -
KILL掉当前Hive任务
在运行hive任务时,第7个job任务启动后一直不动,感觉是除了问题于是准备kill掉hive任务使用hadoop job -list来列出当前hadoop正在执行的jobs然后使用hadoop job -kill job_1546932571227_0082来杀死该job任务,成功...原创 2019-01-10 22:48:48 · 9932 阅读 · 0 评论 -
HiveQL优化
HiveQL优化根据网上的资料,简单的总结了一些HQL的优化方案。1.列裁剪Hive在读数据的时候,可以只读取查询中所需要用到的列,而忽略了其他列,例如,若有以下查询:SELECT name,age FROM stu WHERE grade = '一年级'在实施此项查询中,stu表有5列(name,age,gender,num,grade),Hive只读取查询逻辑中真正需要的三列...原创 2018-12-31 18:07:24 · 491 阅读 · 0 评论 -
ES学习:ElasticSearch 6.2安装教程
环境:CentOS 7.xJDK 1.8ElasticSearch 5.2安装步骤:1.配置JDK1)使用tar -xvf 命令解压jdk压缩包2)配置环境变量在/etc/profile 中添加以下属性export JAVA_HOME=/usr/local/jdk1.8.0_101export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAV...原创 2018-12-16 16:53:17 · 972 阅读 · 0 评论 -
从浅入深带你了解MapReduce编程模型(MapReduce基础解析)
1.MapReduce概念MapReduce是一个分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google公司,而Google的灵感则来自于函数式编程语言,如LISP,Scheme,ML等。Map:过滤一些原始数据Reduce:处理这些数据,得到我们想要的结果当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的...原创 2018-12-02 22:19:00 · 1333 阅读 · 0 评论 -
向HBASE传输数据时出现:java.io.IOException: 远程主机强迫关闭了一个现有的连接 错误
18/11/21 22:31:01 INFO ClientCnxn: Opening socket connection to server 192.168.85.133/192.168.85.133:2181. Will not attempt to authenticate using SASL (unknown error)18/11/21 22:31:01 INFO ClientCnxn...原创 2018-11-21 22:52:29 · 3841 阅读 · 0 评论
分享