- 博客(25)
- 收藏
- 关注
原创 ResourceManager GC
ResourceManager GCGC,指Garbage Collection 是JAVA/.NET中的垃圾收集器。现象在系统运行高峰期,YARN的RM无法登录或登录界面现实特别慢。应用执行也特别慢。分析与解决方案根据经验,系统RM无法登录,那么有可能是RM进程有问题,所以查看RM进行日志。查看RM的GC日志resourcemanager-omm-201702
2017-02-18 15:00:38
2887
原创 问题分析报告--读取ORC文件报seek错误
问题分析报告--读取ORC文件报seek错误1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2
2016-11-12 14:53:29
1146
原创 问题分析报告--DBService备份问题
1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]hive任
2016-11-12 14:50:43
1200
原创 问题分析报告--简单SQL启动MR
1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]10月24
2016-11-12 14:48:45
759
原创 问题分析报告--在压力场景下OS在某种硬件环境下的性能可能会下降90%的问题
1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]本问题属于
2016-11-12 14:46:04
607
原创 问题分析报告--压力环境下运行缓慢
问题分析报告--压力环境下运行缓慢1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[
2016-11-06 13:39:18
361
原创 问题分析报告--Hive表列属性更新慢并偶尔更新失败
问题分析报告--Hive表列属性更新慢并偶尔更新失败1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C30LCN001SPC005MetaStore:高斯数据库(Post
2016-11-06 13:38:01
4844
原创 Hive参数
命名空间使用权限描述hivevar可读/可写用户自定义变量hiveconf可读/可写Hive相关的配置属性system可读/可写java定义的配置属性env只可读shell环境定义的环境变量set;set -v;SET(不带-v)打印出命名空间hivevar,hiveco
2016-10-20 23:49:34
396
原创 JOIN详解
JOIN详解SQL中JOIN有多种:JOIN、INNER JOIN、FULL JOIN、FULL OUTER JOIN、LEFT JOIN、LEFT OUTER JOIN、RIGHT JOIN、LEFT OUTER JOIN。同时不还要注意ON ,WHERE等条件使用。注:1、只有 FULL JOIN 完全强制连接顺序2、大多数 LEFT JOIN 或 RI
2016-10-20 23:47:22
997
原创 Hive优化--定位调优指导
1.1. 日志搜集 1.1.1. HiveServer日志获取Hive调优需要看HiveServer的运行日志及GC日志。HiveServer日志路径为:HiveServer节点的/var/log/Bigdata/hive/hiveserver/。文件名日志内容hive.logHiveServer运行日志
2016-10-20 23:42:56
2811
原创 Hive优化--关键参数及HQL案例
1. 关键参数及HQL案例1.1. 当输入数据量较大时减小Map处理的最大数据量已知表midsrc有1.5亿条记录,如下:分别设置map处理最大数据量为1024000000、512000000、256000000、128000000观察以下语句的执行情况。统计信息如下:Map处理的最大数据量Mapper数执行时长(
2016-10-20 23:41:51
1449
1
原创 Hive调优的目标、原则及手段
1. Hive调优的目标、原则及手段1.1. 调优目标Hive调优的目标是在不影响其他业务正常运行的前提下,最大限度利用集群的物理资源,如CPU、内存、磁盘IO,使其某一项达到瓶颈。如下CPU接近瓶颈: 1.2. 调优原则(1)保证map扫描的数据量尽量少减少map端扫描数量,需要控制待处理的表文件或中间文件的数据量尽量少。优化的方式如:Hiv
2016-10-20 23:36:56
1796
原创 Hive优化--分区表与分桶表
1. 根据业务特征创建分区表使用分区表能有效地分隔数据,分区条件作为查询条件时,减少扫描的数据量,加快查询的效率。 如果业务数据有明显的时间、区域等维度的区分,同时有较多的对应维度的查询条件时,建议按照相应维度进行一级或多级分区。2. 根据业务特征创建分桶表分桶的目的是便于高效采样和为Bucket MapJoin及SMB Join做数据准备。对于Hive表有按照某
2016-10-20 23:34:43
2094
原创 Hive优化--文件压缩格式
1.1. Hive表文件及中间文件使用合适的文件压缩格式GZip和Snappy,这两种压缩算法在大数据应用中最常见,适用范围最广,压缩率和速度都较好,读取数据也不需要专门的解压操作,对编码来说透明。压缩率跟数据有关,通常从2到5不等;两种算法中,GZip的压缩率更高,但是消耗CPU更高,Snappy的压缩率和CPU消耗更均衡。 对于存储资源受限或客户要求文件必须压缩的场景,
2016-10-20 23:32:28
441
原创 Hive优化--文件格式
1. Hive调优前相关规划设计Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供Hive SQL(简称HQL)查询功能,可以将HQL语句转换为MapReduce、Tez、Spark任务运行。本文仅讨论Hive on MapReduce的性能调优场景。在进行Hive参数调优和SQL调优之前,要进行相应的规划设计,包括:Hive表使用高效
2016-10-20 23:30:47
724
原创 获取gp表结构的函数
说明:此函数可以获取二级分区表以内的表结构,里面添加了一些关键字过滤,可能不全,遇到时可自行添加用法:select get_gp_create_sql('schemaname.tablename')-- Function: public.get_gp_create_sql(text)-- DROP FUNCTION public.get_gp_create_sql(te
2016-10-20 23:26:13
3805
原创 Greenplum中内存设置不合理导致的报错
现象:以下2个案例:1.RPSM_TRADE_INFO_NLC这个脚本的 560行报错脚本中写法: DELETEFROM $RPSM_SCH.RPSM_TRADE_INFO O USING TEMP_RPSM_TRADE_INFO_NLC_YXLC_PRE N WHEREN.TRANS_SID = O.TRA
2016-10-20 23:25:30
9655
原创 表关联优化方法分享
在数据库中,表与表之间的关联,通过JOIN连接。可以理解为“横向关联”,如果是多个大表,“横向关联”,效率比较慢; “纵向关联”:UNION每个表,再GROUPBY去重,得到“关联”的效果。“纵向关联”效率比“横向关联”强很多。举例:T1,T2,T3,T4,T5,每个表有5000万条数据。“横向关联”: JOIN关联,实际是5000万*5000万*5000万*5000万*5000万,实
2016-06-11 23:01:26
1284
转载 GreenPlum 介绍 - client认证、限制并发、SSL连接
【设置client认证】要从远端连接GP,修改配置文件 pg_hba.conf (标准PostgreSQL host-basedauthentication文件)虽然在master和segment都存在pg_hba.conf,但是只要修改master就可以了。client只能连接master,从来不需要直连segment。pg_hba.conf的内容远端访问格式如下:local
2016-01-18 22:00:36
1175
转载 GREENPLUM优化建议
1. 在完成大批量数据装载之后,针对目标表总是进行vacuum analyze操作。2. 表的布局:尽量把数据分布键放在最前面,如果是分区表,那么接下来是分区键,并且在此基础上建议按照数据类型宽度从大到小的顺序排列比如先8 byte的列,再4字节,再2字节。3. 数据分布键的选择:数据分布均匀是保证GP高效并行处理能力的基础。因此定义表时,如果选用HASH分布策略,保证数据分布均匀
2016-01-18 21:13:31
3668
转载 VACCUM
VACUUMNameVACUUM -- 垃圾收集以及可选地分析一个数据库SynopsisVACUUM [ FULL | FREEZE ] [ VERBOSE ] [ table ]VACUUM [ FULL | FREEZE ] [ VERBOSE ] ANALYZE [ table [ (column [, ...] ) ] ]描述VACUUM 回收已删
2016-01-18 21:09:44
645
转载 GreenPlumn数据库体系结构
GreenPlumn 数据库是基于 PostgreSQL 基础上开发,具有巨大的并行处理能力的数据仓库,MPP( massively parallel processing )是 GreenPlumn的主要特性, MPP是指服务器上拥有两个或者以上的处理节点,并且多个处理节点可以并行,协同的工作来完成一个计算, 这些处理节点拥有独自的内存,操作系统和硬盘, 处理节点可以理解成为一台物理主机。Gre
2016-01-17 10:27:29
1891
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人