
大数据
文章平均质量分 85
大数据生态圈相关分享
yyoc97
--
展开
-
clickhouse(十五、存储优化实践)
clickhouse存储优化,多种方式测试验证原创 2024-06-05 17:56:48 · 981 阅读 · 0 评论 -
Flink cdc3.0动态变更表结构——源码解析
Flink cdc 动态变更表结构的源码分析原创 2024-02-05 19:03:07 · 4260 阅读 · 0 评论 -
Flink cdc3.0同步实例(动态变更表结构、分库分表同步)
基于 Flink CDC 3.0 同步 MySQL 到 Doris ,来体验整库同步、表结构变更同步和分库分表同步等功能。原创 2023-12-20 17:32:50 · 13466 阅读 · 23 评论 -
clickhouse(十四、分布式DDL阻塞及同步阻塞问题)
验证处理clickhouse 分布式ddl和同步阻塞问题原创 2023-08-22 18:01:08 · 2413 阅读 · 0 评论 -
Flink源码解析(一、source原理)
source/sink 是flink最核心的部分之一,通过对其实现原理的学习,结合源码debug,有助于加深对框架处理过程的理解,以及架构设计上的提升。原创 2022-11-27 12:55:41 · 2282 阅读 · 1 评论 -
Iceberg (一、presto和trino实践——行级更新)
Iceberg 是一种用于大型分析表的高性能格式。Iceberg 为大数据带来了 SQL 表的可靠性和简单性,文章讲述 Presto/Trino对iceberg的入门实践原创 2022-09-26 19:15:34 · 3661 阅读 · 0 评论 -
Debezium指定binlog位置初始化异常排查修复
文章目录异常现象如何复现排查定位线索定位异常现象最近项目需要使用Debezium指定binlog位置读取数据,当配置FileDatabaseHistory 保存offset就会出现无法识别schema异常。14:52:18.237 [blc-9.135.12.10:3307] ERROR io.debezium.connector.mysql.MySqlStreamingChangeEventSource - Encountered change event 'Event{header=EventHe原创 2022-05-17 20:27:46 · 3954 阅读 · 2 评论 -
Apache Druid(二、架构设计)
文章目录回顾架构 整体设计进程服务作用数据流数据生产数据查询查询的优化索引服务存储设计Datasrouces and segmentssegment设计 特殊数据结构命名设计实际物理存储Segment创建过程参考回顾上一篇提供druid的安装是很早的版本了 https://blog.youkuaiyun.com/yyoc97/article/details/88411429,目前druid的安装使用会更简洁些快速入门。因为现在接触的业务有使用到这个组件,今天我们再来学习下它整体的架构。架构 整体设计这个是Dr原创 2021-08-21 17:47:39 · 687 阅读 · 0 评论 -
DataX导数的坑
安装按照Git Quick StartDownload 中的描述,选择直接点击DataX下载地址,然后解压执行自检脚本: python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json,到这为止一切都是正常的。异常于是根据reader和writer的格式配置自己的json脚本。{ "core": { "transport" : { "channel": {原创 2020-12-21 12:19:20 · 21525 阅读 · 0 评论 -
scala cube聚合操作实例
前言因为内部平台spark-sql不方便调优、配置资源的因素,某些情况还是会用到scala dateframe操作数据,今天记录一些关于聚合,count distinct多个字段,重名展示的一些示例。数据准备Jack2 22 20200405Jack2 21 20200401Jack2 21 20200401Kate 22 20200406Mi2ng 20 20200406代码示例def main(args: Array[String]): Unit = { val sc = S原创 2020-12-08 16:27:40 · 418 阅读 · 0 评论 -
spark数据倾斜处理实践
文章目录判断是否倾斜实践定位解决判断是否倾斜通过Spark Web UI查看运行到了哪个Stage。 主要看最慢的Stage各task里 Shuffle Write Size / Records分配的数据量,来确定是否是数据倾斜。实践定位如图stage基本在几分钟内、而这个stage运行较长时间,却只有一个task没完成了。这种情况发生倾斜的概率就很大了。我们可以点到具体的stage中看下详情。从DAG中我们可以看到有leftOuterJoin算子。所以任务必然有shuffle产生,接着继续原创 2020-10-21 21:28:48 · 1085 阅读 · 0 评论 -
clickhouse(十二、踩坑之路)
Q1DB::Exception: Cannot create table from metadata file /data/clickhouse/metadata/default/dwd_test.sql, error: DB::Exception: The local set of parts of table default.dwd_test doesn’t look like the set of parts in ZooKeeper: 65.88 million rows of 85.04 mi.原创 2020-09-14 13:37:53 · 22726 阅读 · 19 评论 -
clickhouse(十一、 实时分析优化AggregateFunction及物化视图 )
文章目录AggregateFunction物化视图原理AggregateFunctionAggregatingMergeTree就有些许数据立方体的意思,它能够在合并分区的时候,按照预先定义的条 件,聚合数据。同时,根据预先定义的聚合函数,计算数据并通过二进制的格式存入表内。将同一分组 下的多行数据,聚合成一行,既减少了数据行,又降低了后续聚合查询的开销。-- 建表语句CREATE TABLE agg_table( id String, city String, code Aggregate原创 2020-08-04 22:17:33 · 9383 阅读 · 0 评论 -
clickhouse(十、 特殊函数应用 )
文章目录分组取每组前n条分组、汇总同时计算表重命名分组取每组前n条数据分析分组展示N行想必大家都不陌生,clickhouse也很方便的提供了相关的查询语法:LIMIT n BY express,我们以系统表为例,用到的属性有数据库名、表名、表大小。-- 数据库分组取每个库下最大的三个表SELECT database, table, formatReadableSize(sum(data_compressed_bytes)) AS bytes FROM system.parts GR原创 2020-07-23 11:59:51 · 4155 阅读 · 0 评论 -
深度对比delta、iceberg和hudi三大开源数据湖方案
目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点,加上项目各成员积极地社区建设,包括技术细节分享、国内社区推广等等,也在逐步地转载 2020-07-20 21:17:58 · 933 阅读 · 0 评论 -
clickhouse(九、metabase链接及时区配置)
文章目录安装metabase配置clickhouse驱动metabase时区配置安装metabase# 选用docker方式,下载镜像docker pull metabase/metabase# 创建插件目录mkdir -p /data/docker/metabase/plugins# 启动容器,将目录挂载到容器/tmp 目录下docker run -d -v /data/docker/metabase/plugins:/tmp \ --name metabase \ meta原创 2020-07-13 10:36:14 · 6276 阅读 · 12 评论 -
ClickHouse之DBA运维宝典
ClickHouse 中有没有一些能够 “安家立命” 的运维 SQL 语句。我想对于这个问题很多朋友都会有兴趣,所以就在这里做一个简单的分享。在 ClickHouse 默认的 system 数据库下(databse),拥有众多的系统表。我们对 ClickHouse 运行状态的各种信息,就主要来自于这些系统表。接下来就列举一些常用的运维 SQL 语句。 当前连接数 众所周知,CH 对外暴露的原生接口分为 TCP和 HTTP 两类,通过system.metrics即可查询当前...转载 2020-06-30 09:50:44 · 1196 阅读 · 1 评论 -
clickhouse(八、特有存储结构和分布式表)
文章目录存储结构逻辑划分列式存储稀疏索引分布式表存储结构以下实例我们都以clickhouse最常用的*MergeTree(合并树)子类引擎来做介绍。逻辑划分以分布式表为例,那么ck数据存放于该集群下多个shard分片中。如果shard不在一个节点上,也就是数据会分散到多台机下。每个分片中的数据会根据建表时指定的partition在进行划分,而单个partition中,如果数据容量超过一定阈值又会重新拆分。# 表结构:${ck_data}/metadata/path_to_table/*.sql原创 2020-05-29 00:33:10 · 2125 阅读 · 0 评论 -
clickhouse(七、集群监控)
文章目录介绍chproxygrafanaprometheus安装配置chproxyprometheusgrafana监控配置配置DataSources导入模板查看效果结尾介绍集群监控对于一个生产应用的重要性不言而喻。今天我们就来看下clickhouse集群监控的实践。对于还不熟悉clickhouse相关组件的朋友,本节有必要先介绍一些工具。chproxy首先在使用ck集群时,通常我们通过会利用到 chproxy 这个开源的代理工具,主要用于负载均衡、并发控制、用户权限控制等操作。grafanag原创 2020-05-12 15:53:22 · 5381 阅读 · 11 评论 -
通俗易懂的大数据平台概念和架构
文章目录前言问题什么是大数据为什么需要数据平台数据平台整体模型模块分析主流平台前言今天为什么来写这个内容了,一是前些天有个非行业内的好朋友想了解了大数据相关概念的内容,搜了下网上平台相关的介绍,对于业内和业外的感觉都不太完善。另外就是自己也想定时归纳下认知。所以今天特意描述下自己的愚见,也欢迎大家指点。问题在开始今天的描述前,这里我先提一个问题。假设双11马总让大家来计算下淘宝过去1小时购...原创 2020-04-25 14:41:05 · 3114 阅读 · 0 评论 -
58同城离线计算平台设计与实践(大数据进阶)
编者荐语:58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大。本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。分享嘉宾:余意 58同城高级架构师编辑整理:史士博内容来源:58大数据系列直播出品平台:DataFun导读:58离线计算平台基于...转载 2020-04-13 18:38:41 · 978 阅读 · 0 评论 -
数据仓库(二、美团设计实践)
OneData建设探索之路:SaaS收银运营数仓建设背景随着美团业务的发展,频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划,导致后期数仓出现了严重的数据质量问题,这给数据治理工作带来了很大的挑战。在数据仓库建设过程中,我们总结的问题包括如下几点:缺乏统一的业务和技术标准,如:开发规范、指标口径和交付标准不统一。 缺乏有效统一的数据质量监控,如:列值信息不完整和不准确,...转载 2020-04-09 18:45:28 · 3123 阅读 · 0 评论 -
美团1万台 Hadoop 集群 YARN 的调优之路
编者荐语:YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。随着集群规模扩大以及业务量的增长,集群调度能力会随着压力增加而逐渐下降。美团是如何解决这个问题的呢?以下文章来源于美团技术团队,作者世龙 廷稳美团技术团队9000+工程师,如何支撑中国领先的生活服务电子商务平台?3.2亿消费者、500万商户、2000多个行业、几千亿交易额背后...转载 2020-04-05 22:13:46 · 523 阅读 · 0 评论 -
yarn capacity scheduler调度器实践
文章目录简述配置测试异常结尾简述能力调度器在生产实践中是用的较多的一种模式,今天单机来实践一下。hadoop版本我这里选用了3.1.2,spark是用的2.4.3配置yarn-site.xml这里主要配置yarn.resourcemanager.scheduler.class属性就好。<configuration> <property> ...原创 2020-04-01 18:28:29 · 472 阅读 · 0 评论 -
clickhouse(六、集群扩容)
文章目录背景方案复制配置权重测试结尾背景之前公司面临磁盘不足的问题、如果通过增加磁盘来缓解了。但是clickhouse金额集群扩容是发展迟早要面临的问题,所以尝试思考解决方案。ck不同于hadoop体系,hdfs当集群增减节点时可以通过balance命令去自动调节。但ck集群不能自动感知集群拓扑变化,也不能自动 balance 数据。当集群数据量较大,复制表和分布式表过多时、想做到表维度、或者...原创 2020-03-30 19:13:18 · 7695 阅读 · 7 评论 -
org.apache.flink.table.api.TableException: Only the first field can reference an atomic type.
文章目录异常maven依赖flink sql实例方案异常Exception in thread "main" org.apache.flink.table.api.TableException: Only the first field can reference an atomic type. at org.apache.flink.table.api.TableEnvironmen...原创 2020-03-30 16:28:33 · 2106 阅读 · 0 评论 -
最新elasticsearch7(七、集群多主高可用配置)
文章目录前言配置集群间证书认证elasticsearch.yml验证客户端集群配置restHighLevelClientjdbc参考前言前面介绍了es7相关的一些用法。这一节我们来实践下集群高可用搭建,以及账号权限的配置。之前看了很多博主介绍的都是从主模式,主节点挂了集群也就不能对外服务了。目前使用的最新版本7.6.0。账号配置需要破解x-pack包。(如果不需要设置密码可以忽略)配置集...原创 2020-02-26 18:23:19 · 4585 阅读 · 5 评论 -
干货 | 携程机票数据仓库建设之路
一、前言随着大数据技术的飞速发展,海量数据存储和计算的解决方案层出不穷,生产环境和大数据环境的交互日益密切。数据仓库作为海量数据落地和扭转的重要载体,承担着数据从生产环境到大数据环境、经由大数据环境计算处理回馈生产应用或支持决策的重要角色。数据仓库的主题覆盖度、性能、易用性、可扩展性及数据质量都是衡量数据仓库解决方案好坏的重要指标。携程机票部门数据仓库也在不断摸索向着这些目标砥砺前行。...转载 2020-02-20 18:24:12 · 710 阅读 · 0 评论 -
最新elasticsearch7(六、sql查询工具datagrip)
文章目录准备导入驱动sql实测准备我们需要下载一个DataGrip,是JetBrains公司推出的管理数据库的产品。然后通过maven下载对应版本jdbc的jar包x-pack-sql-jdbc。导入驱动我们在maven的仓库找到jar包,或者也通过插件导出 x-pack-sql-jdbc-7.x.x.jar文件配置驱动使用EsDriver7.5.1驱动连接测试地址jdbc:es:...原创 2020-02-18 21:58:02 · 4939 阅读 · 0 评论 -
最新elasticsearch7(五、结合mybatis、springboot实例)
文章目录前言前言上一篇介绍Elasticsearch7.5的破解方法,结果csdn现在莫名其妙不支持破解、激活类博文公开,审核没有通过。不过网上也有其他版本的破解方式,新版本也就一些细节区别,有需要的也可以后面留言。这节我们接着第三节写下Elasticsearch结合mybatis的实例。...原创 2020-02-12 13:49:17 · 3908 阅读 · 27 评论 -
最新elasticsearch7(三、jdbc链接sql查询)
文章目录采坑新方案结尾采坑这节我们来说下如何使用sql来查询es,网上很多使用 NLPChina提供的elasticsearch-sql包,比如gitlab上给出的案例public void testJDBC() throws Exception { Properties properties = new Properties(); properties.pu...原创 2020-02-07 17:41:40 · 4205 阅读 · 0 评论 -
最新elasticsearch7(二、批量插入存在即更新java)
文章目录前言唯一键批量插入批量插入或更新结尾前言本篇开发环境基于上篇,客户端client使用rest风格的高等级(high level)API,这节我们来讲下ES的批量插入或更新操作。唯一键这里先提个概念,存在则更新。ES是以_id来作为doc的唯一键的,等同于主键,但它没有像关系型数据库的索引,不过我们开始可以利用_id来实现我们唯一索引的目的。当有多个字段需作为唯一键时,我们可以利用h...原创 2020-02-05 16:46:03 · 13958 阅读 · 1 评论 -
最新elasticsearch7(一、增删改查java)
文章目录前言文档使用spring配置CRUD前言之前想到网上找几个es结合spring的简单实例,但是因为es的版本众多,个别版本的差异还较大,另外es本身提供多种api,导致许多文章各种乱七八糟实例,很难找到版本匹配直接能用的。所以后面直接放弃,从官网寻找方案,这里我使用elasticsearch最新的7.5版本来做样例,这里特别写一下官方文档的使用,方便小伙伴遇到问题可以自行查找。文档使...原创 2020-02-04 16:32:08 · 3283 阅读 · 4 评论 -
clickhouse(四、运维查看数据库及表容量)
mysql数据库有information_schema.tables系统表记录表相关元数据,clickhouse对应的有system.parts表。下面是查看clickhouse数据库和表大小、行数及压缩率等方法。-- 查看数据库容量,以测试数据为参考select sum(rows) as "总行数", formatReadableSize(sum(data_uncompres...原创 2019-11-17 18:59:56 · 12941 阅读 · 2 评论 -
整合griffin遇到的坑——Spark无法写入ES
前言最近准备对数据质量进行监控,选定的工具是开源的Apache Griffin,由于文档稀缺,加上griffin本身使用的组件众多,期间采坑不少,我们将打好的包measure-0.6.0-SNAPSHOT.jar放到集群中,通过livy调用spark命令执行任务,过程还是相对繁琐的。本文就spark任务结果写入elasticsearch遇到异常做个小结。异常Exception in thre...原创 2019-07-10 10:20:25 · 1699 阅读 · 8 评论 -
clickhouse(三、查询同步远程集群)
需求在使用ck时,我们难免会遇到跨集群的数据传输,比如数据备份,不同环境同步数据等。之前试过查询出来再写入,数据量少的情况还能接受,超过10w这样效率就显得很低了,而大数据环境下10w当然是不能接受的。所以ck也提供了一种比较高效的方式,直接跨集群传输,减少了io次数,进而大幅度提升效率。方案ck提供remote函数,允许我们去查询远程的服务。(这里要吐槽下ck的文档,目录结构的划分...原创 2019-09-18 14:53:10 · 4536 阅读 · 6 评论 -
Spark streaming手动保存offset到zk java实现
文章目录前言pom依赖版本Dome前言网上有部分案例是关于手动设置kafka中offset的,不过大多采用的是0.8的kafka版本,采用scala的编写,kafka-0.10版本的鲜有提及,或者都不完整。0.10版本是可以兼容之前的,但是新版本的api确实要更简洁易用。找不到可以直接拿来就用的,所以这里抽时间看官网api,写个较为完整的JAVA测试用例,希望对大家有帮助。pom依赖版本 ...原创 2019-09-17 19:06:09 · 508 阅读 · 0 评论 -
Druid的简介及安装使用
文章目录应用场景特点设计原则数据格式相关软件对比总体架构安装环境服务运行应用场景从技术定位上看,Druid 是一个分布式的数据分析平台,在功能上也非常像传统的OLAP系统,但是在实现方式上做了很多聚焦和取舍,为了支持更大的数据量、更灵活的分布式部署、更实时的数据摄入,Druid 舍去了OLAP 查询中比较复杂的操作,例如JOIN 等。相比传统数据库,Druid 是一种时序数据库,按照一定的时间...原创 2019-03-11 22:24:51 · 1809 阅读 · 2 评论 -
【案例分享】唯品会海量实时OLAP分析技术升级之路
【文章来源:DBAplus社群。本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成】讲师介绍谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。分享大纲:海量数据转载 2018-04-24 16:53:44 · 1353 阅读 · 1 评论 -
Spark SQL优化利器——Adaptive Execution
引入 Intel 开源的 Adaptive Execution 功能,优化执行过程中的 shuffle 数目,执行过程中基于代价的 broadcast join 优化,替换 sort merge join,同时更彻底解决小文件问题。RBO 与 CBO 在逻辑计划优化阶段与物理计划生成阶段通过规则优化最终生成的 DAG。本文介绍的 Adaptive Execution 可在 Spark Jo...转载 2019-06-28 10:40:15 · 444 阅读 · 0 评论