
Hadoop生态圈
文章平均质量分 88
Hadoop
谭正强
一个不愿在枯燥的日子里自废武功,同时对技术有点追求的 Java、大数据程序员。永远对牛人心生敬仰,对自己不甘平庸。
人到中年,太多的无奈驱使我无法专心做技术,但是在这里我希望这颗心可以纯粹点,聊点对技术的热爱,反省下当下的人生。
展开
-
Kylin接入外部Jdbc Mysql数据源
前言Kylin目前不仅仅支持Hive作为数据源构建cube,也可以支持使用外部jdbc作为数据源进行构建,比如使用MySQL数据源的时候会让我们下载sqoop安装包,本质上是使用sqoop全量同步我们要构建的MySQL数据,先加载到hive的临时表中,构建完成之后然后再清理。对于需要增量数据同步并进行构建的情况不太友好提示:以下是本篇文章正文内容,下面案例可供参考一、环境安装部署为了简化安装的环节,可以直接借用官方提供的docker化部署方案进行验证即可。# 拉取镜像docker pull a原创 2021-07-21 11:29:23 · 1585 阅读 · 5 评论 -
Yarn运行中的任务如何终止?
前言 我们的作业是使用yarn来调度的,那么肯定就需要使用相关的命令来进行管理,简单的有查询任务列表和killed某一个正在运行中的任务。提示:以下是本篇文章正文内容,下面案例可供参考一、Yarn常用命令以下是基于yarn客户端使用命令行的方式进行:yarn application -list 打印任务信息yarn applicaton -kill applicationId二、REST API1. 发送PUT请求 String appId = "applica原创 2021-03-09 20:01:24 · 10504 阅读 · 0 评论 -
Griffin0.6服务初测--使用Measure库提交自定义文件
前言前面提到我们可以使用Griffin UI 来创建测试用例,而且我们还可以依据自身情况来提交自定义json文件,目前griffiin保留的connector只有hive,如若扩展还需要使用jar包提交的方式,当前griffin提供的UI并不能满足需求,所以在这里做个记录方便后续集成到公司的大数据监控系统上面来。参考官网示例:http://griffin.apache.org/docs/quickstart.html以下定义了一个batch的profiling任务一、定义环境配置文件示例 .原创 2020-11-24 17:10:17 · 969 阅读 · 4 评论 -
Griffin-0.6.0服务部署笔记
前言Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。一、环境设置Apache .原创 2020-11-20 12:46:48 · 1474 阅读 · 10 评论 -
Livy-0.7.0 服务部署笔记
前言Livy的官网实在是过于简陋,以下记录下部署的流程:Spark on yarn-cluster一、Livy是什么?看这里:http://livy.incubator.apache.org/二、使用步骤1.下载wget https://mirror.bit.edu.cn/apache/incubator/livy/0.7.0-incubating/apache-livy-0.7.0-incubating-bin.zip .2. conf文件配置### li...原创 2020-11-18 21:00:17 · 818 阅读 · 0 评论 -
clickhouse 常用的运维SQL
1、当前连接数众所周知,CH 对外暴露的原生接口分为 TCP 和 HTTP 两类,通过 system.metrics 即可查询当前的 TCP、HTTP 与内部副本的连接数。ch7.nauu.com :) SELECT * FROM system.metrics WHERE metric LIKE '%Connection';SELECT *FROM system.metricsWHERE metric LIKE '%Connection'┌─metric────────────────┬─v转载 2020-09-29 17:36:38 · 3904 阅读 · 0 评论 -
orc表导致hiveserver2内存暴涨问题分析
一、问题描述昨天上午,钉钉上突然出现一堆hive相关的查询错误的报警。第一感觉,在yarn上查看任务日志,查询了一通,结果没看到有任务相关的报错。于是乎,立马查看hiveserver2的相关log,看到如下之类的信息:Detected pause in JVM or host machine (eg GC): pause of approximately 15290msGC pool 'ConcurrentMarkSweep' had collection(s): count=1 time...转载 2020-09-25 17:32:07 · 3976 阅读 · 0 评论 -
Presto查询Hive表最大分区数的两种方式
环境说明PRESTO VERSION 0.207查询方式使用SQL直接查询---- 客户端查询 presto --server localhost:8888 --catalog hive --schema defaultselect max(pt) FROM hive.ods."ods_parents_df$partitions"; _col0------------ 2020-08-14(1 row)----JDBC查询select max(pt) FROM ods."od原创 2020-08-15 14:21:10 · 4712 阅读 · 0 评论 -
Hive性能调优与实战节选
此文来自于《Hive性能调优与实战》,写的真不错,如有需要自行购买京东 在这里仅用以笔记备忘,侵删!一、什么是mapreduce的shuffle ?shuffle的过程应该是从mapper的map方式输出到Reduce方法输入的过程. 非常关键的一个环节,制约了性能,保证了可以在廉价机器上可靠运行的一个环节。在Mapper的map方法中,context.write 会讲数据计算所在的分区后写入到内存缓冲区(100mb)达到阈值0.8 也就是当写到80mb的时候开始启动新线程写入hdfs临时目录。目的原创 2020-05-18 16:32:01 · 769 阅读 · 0 评论 -
Datax MySQL2Hive抽数ClassCastException: java.lang.String cannot be cast to java.lang.Integer问题解决
1、现象com.alibaba.datax.common.exception.DataXException: Code:[HdfsWriter-04], Description:[您配置的文件在写入时出现IO异常.]. - java.lang.ClassCastException: java.lang.String cannot be cast to java.lang.Integerat ...原创 2020-04-10 20:29:53 · 2872 阅读 · 0 评论 -
初识数据源同步利器--DataX
一、DataX是什么?DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念:为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入...原创 2019-11-29 19:23:44 · 2131 阅读 · 0 评论 -
sqoop抽数的一个小细节
sqoop抽数的时候我们一般会在jdbc参数上附加加一些条件做些字符编码的相关设置等,但是亲自测试会发现一些小问题。如下示例:sqoop import -Dorg.apache.sqoop.splitter.allow_text_splitter=true \-Dmapred.job.queue.name=xxx \--connect jdbc:mysql://xxx:3306/xx...原创 2019-11-12 10:59:44 · 1078 阅读 · 0 评论 -
为啥选择maxwell进行数据同步?
原创 2019-08-28 12:00:30 · 1632 阅读 · 0 评论 -
Sqoop抽数报MySQL错误CommunicationsException
报错信息如下:The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Nat...原创 2019-08-26 19:28:17 · 649 阅读 · 0 评论 -
浅谈 hadoop 文件合并
众所周知,Hadoop对处理单个大文件比处理多个小文件更有效率,另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。1,getmergehadoop有一个命令行工具getmerge,用于将一组HDFS上的文件复制到本地计算机以前进行合并参考:http://hadoop.apache.org/common/docs/r0.19.2/cn/hdfs_shell转载 2016-03-16 14:39:07 · 1427 阅读 · 0 评论 -
MapReduce中的join算法-reduce端join
在海量数据的环境下,不可避免的会碰到join需求, 例如在数据分析时需要连接从不同的数据源中获取到数据。假设有两个数据集:气象站数据库和天气记录数据库,并考虑如何合二为一。一个典型的查询是:输出气象站的历史信息,同时各行记录也包含气象站的元数据信息。气象站和天气记录的示例数据分别如下所示:Station ID Station Name011原创 2016-05-10 18:57:28 · 4968 阅读 · 0 评论 -
Hadoop压缩格式对比
转自:原文链接1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文...转载 2018-05-03 14:10:17 · 710 阅读 · 0 评论 -
修改Kafka服务日志输出目录不生效排查过程
背景:kafka的服务日志输出要求不能放在系统盘(空间比较小)操作:本能的修改log4j.properties的日志输出,如图:结果:重启服务后发现未生效,日志还是输出到当前目录的logs中猜测:设置的变量kafka.logs.dir未生效,那这个变量哪里来的呢?看下启动脚本验证:1、查看kafka启动脚本 kafka-server-start.sh, 其实真正的启动类是:if...原创 2019-03-20 17:00:26 · 3167 阅读 · 0 评论 -
Zookeeper客户端Curator使用详解
Zookeeper客户端Curator使用详解前提转自:Throwable!因为最近项目需要使用Zookeeper这个中间件,提前了解一下它的客户端Curator的使用。简介Curator是Netflix公司开源的一套zookeeper客户端框架,解决了很多Zookeeper客户端非常底层的细节开发工作,包括连接重连、反复注册Watcher和NodeExistsExcepti...转载 2019-03-25 11:40:06 · 492 阅读 · 0 评论 -
Kylin&Druid浅析
一、kylin核心思想 Apache Kylin的核心思想是利用空间换时间,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase), 同时由于Apache Kylin在查询方面制定了多种灵活的策略,进一步提高空间的利用率,使得这样的平衡策略在应用中值得采用。 kylin主要是对hive中的数据进行预计算,利用hadoop的mapreduce框架实现。...原创 2019-04-24 08:33:15 · 13128 阅读 · 3 评论 -
MapReduce中的两表join几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File转载 2016-03-16 14:28:25 · 648 阅读 · 0 评论