- 博客(340)
- 资源 (11)
- 收藏
- 关注
原创 非你想的那个 CDC,实为我这个 CDC 也
背景CDC,Change Data Capture,直译为变更数据捕获,反正能理解就对了。答案在哪里你是否在调研数据库数据实时复制方面,遇到以下问题:基于 binlog(transact...
2020-06-06 18:31:49
1260
原创 来,换个轻松话题,深度学习
今天,笔者将和读者一起聊聊一个令人轻松愉快的话题,关于深度学习。题外话最近,笔者取关了不少微信公众号,套路太深且广告太多,难道不明白大部分人的时间都不够用吗!说什么文正香,意更深,甚荒唐...
2020-05-23 18:52:37
743
原创 Hadoop 3.x 时代,EC 露个脸呗!
在本文中,笔者将详细研究 HDFS EC(Erasure Coding,纠删码),讲解什么是 HDFS EC,引入 EC 的原因,用于 EC 的算法,以及在 Hadoop 社区中为 EC...
2020-05-15 19:00:00
2026
1
原创 推荐升级四部曲之 CDH 手动升级,奔涌吧!
插曲在上篇文章《推荐升级四部曲之 CDH 升级重头戏,收藏了!》中,一些人因为善良而容易相信初次看到的事情,觉得升级过程那么那么那么地顺风顺水,正准备养精蓄锐,大干一场,升级换代,大数据...
2020-05-07 21:59:41
758
原创 推荐升级四部曲之 CDH 升级重头戏,收藏了!
特别提醒为了保证文章整体的阅读性,笔者并没有将升级过程中遇到的所有问题都记录在本篇文章中,比如 Phoenix 版本不兼容和数据迁移,Hive 集成 Atlas 等。特别需要注意,HBa...
2020-04-29 07:00:00
1756
原创 推荐升级四部曲之 CM 升级,收藏了!
概要笔者最近在研究 CDH 大版本升级(CDH 5.16.2 -> CDH 6.3.3)的细节内容,涉及到每个组件的方方面面,确保升级过程中出现各种意外情况能够自主可控,降低未来生...
2020-04-28 07:00:00
1030
原创 Apache NiFi 如何从入门到不放弃?
既然来了,就留下呗。笔者在之前的文章《物联网遇到流计算》中介绍过 Apache NiFi,虽比不上 StreamSets 华丽的外表,但是功能却很强大,在开源方面,NiFi 的企业级功能...
2020-04-18 09:40:17
4184
1
原创 物联网遇到流计算
今天,笔者和大家聊一聊物联网(IoT),不少人都说物联网开启了万物互联时代,尤其是 5G 的逐渐普及和应用,将会构建万物互联的智能世界,实现物理世界的数...
2020-03-26 23:01:02
1183
原创 ClickHouse 新特性 Live View 体验
今天笔者来聊一聊 ClickHouse 中的一个新特性,即 Live View 表。MA(Moving Average)提到 MA,估计大家最先想到的应...
2020-03-19 21:38:40
2210
原创 快来,视频会议要开始了
温习下面的几张图片,感受一下今天将带来的主题氛围。笔者早在好几年前,做过一段时间的音视频流媒体技术的开发,当然大部分都是自娱自乐,没有实际的生产项目。那么多年过去了,音视频技术成熟度...
2020-03-07 23:35:30
543
原创 2020 MIT 6.824 分布式系统课程
MIT 6.824,笔者在几年前刷完了一遍,过程还是相当折磨人的,但受益颇多。如今已是 2020 年了,这个特殊的一年,笔者想和大家一起拿起小板凳,准备好笔记本,再来完整地学习 MIT ...
2020-02-26 19:00:00
17622
6
原创 Spark SQL 自适应执行优化引擎
在本篇文章中,笔者将给大家带来 Spark SQL 中关于自适应执行引擎(Spark Adaptive Execution)的内容。在之前的文章中,笔者介绍过 Flink SQL,目前 ...
2020-02-22 17:13:21
2478
原创 涅槃重生:KRPC 实现 Impala 的飞跃
据不完全统计,在生产环境中部署 Impala 集群时,大部分大数据工程师也会赠送一套 Kudu 环境,当然用不用另说。如果只部署了 Impala 而没有 Kudu,那应该是一个意外。如果...
2020-02-16 10:41:38
2163
原创 Flink 与 Hive 的磨合期
风雨送春归,飞雪迎春到。已是悬崖百丈冰,犹有花枝俏。俏也不争春,只把春来报。待到山花烂漫时,她在丛中笑。选自《卜算子·咏梅》图片来自网络,如侵权,请联系删除有不少读者反馈,参考上篇文章《...
2020-02-07 23:29:49
794
原创 Hive 终于等来了 Flink
等疫情过去了,我们一起看春暖花开。Apache Spark 什么时候开始支持集成 Hive 功能?笔者相信只要使用过 Spark 的读者,应该都会说这是很久以前的事情了。那Apache...
2020-02-04 23:01:28
1647
原创 只争朝夕,不负韶华
图片来自网络,如侵权,请联系删除人生天地之间,若白驹过隙,忽然而已。对于每个人来说,每一年总会有那么一两件让自己铭记不忘的事情,或大或小,或轻或重。对笔者来说,其中一件就是开始坚持不定期...
2020-01-25 17:53:31
787
原创 PostgreSQL 复制方案(管够)
流感无情,人间有情,总会有雨过天晴的时候。希望大家都能够平平安安,一切顺利。一些读者在公众号后台留言,希望笔者能对 PostgreSQL 的主备进行比较全面的介绍。正好春节前,笔者计划再...
2020-01-22 23:22:06
1837
原创 PostgreSQL Replication 101 - 故障转移
众所周知,PostgreSQL 在国内的整体份额比不上 MySQL/MariaDB,但是号称世界上功能最为强大(没有更强,只有更强)的开源数据库之一,它在国内近几年发展势头明显。在大数据...
2020-01-15 22:14:22
1128
原创 所见即所得式数据探索,让数据价值更美丽
在大数据生态系统里面,分析型数据库产品众多,那么如何展示和洞察其中的数据价值呢?最直观的当然是可视化方式,如果没有可视化,再好的数据分析看起来也是苍白无力的,不完美的。数据可视化也是 B...
2020-01-09 07:10:47
2732
1
原创 打开窗,让 Flink 驻进
最近天气时好时坏,忽冷忽热,感冒的人有点多,注意防寒保暖。笔者讲解 Apache Flink 培训系列课程已经有一段时间了,一些读者反馈完成了所有实验并应用到生产实际案例,这真的非常棒,...
2020-01-04 12:48:11
248
原创 ClickHouse - 创建漂亮的 Grafana 仪表盘
今天笔者给大家带来 Grafana 在 ClickHouse 项目中的应用。为了内容的完整性,笔者会从 Grafana 讲起,简单普及一下,毕竟业界使用度已经非常高了。GrafanaGr...
2019-12-29 18:54:46
14111
4
原创 实时流计算中躲不开的 Time 和 Watermark
最近笔者忙着发布 ClickHouse 生产环境,应用于一些业务需求,以及丰富 ClickHouse 周边的生态系统,包括集成 BI 报表、数据迁移、数据备份、监控运维、分析数据可视化平...
2019-12-26 22:20:26
550
原创 ClickHouse - 多卷存储扩大存储容量(生产环境必备)
笔者最近工作有点忙,加上培训较多,近期文章更新慢了一拍。不过,今天为 ClickHouse 的爱好者带来一篇非常不错的文章,部分内容来自 Altinity,以及笔者补充和整理而成。长期使...
2019-12-21 17:59:42
11168
1
原创 Apache Flink 培训系列 - 有状态计算的实验
今天笔者继续讲解 Apache Flink 培训系列课程中的实验2 - 有状态计算,带读者练习如何将每次乘车的 TaxiRide 和 TaxiFare 记录进行 join 操作。输入数据...
2019-12-17 22:49:27
622
原创 Delta Lake - 走进 Databricks
今天笔者带大家走进 Databricks,基于 Databricks Cloud 社区版本进行实验,并在 Databricks Notebook 中对 Delta Lake 商业版本进行...
2019-12-14 16:38:35
1991
原创 The Apache Way - 开源项目
臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣 ...打住,打住!百家讲坛,谈古论今,今天我们不讲三国,我们来讲地球脉动...啊,停停停,爬错楼梯了,跑题啦,专业,...
2019-12-11 07:30:00
1149
1
原创 Apache Flink 培训系列 - Transformation 引发的思考
无状态的 Transformation官网没有给出实战的代码,笔者为了大家可以练习,将会提供完整代码。map()在上面的实验 1 中,我们通过 GeoUtils.isInNYC 过滤出位...
2019-12-08 20:56:15
477
原创 Apache Flink 培训系列 - 实打实地带你入坑
Apache Flink 是一个分布式大数据处理引擎,可对有界数据流和无界数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。笔者三言两语本次培训课程围绕 tr...
2019-12-06 07:55:56
361
原创 Delta Lake - 增删改事务操作之大结局
在《Delta Lake - 数据写入的旅程》和《Delta Lake - 数据更新的旅程》文章中,我们已经从源码层面掌握了 Delta Lake 数据写入和数据更新的实现过程,并结合案...
2019-12-03 19:00:00
1144
2
原创 HBase - 生产环境上线前真的优化过吗?
笔者今天给大家讲一下 HBase 生产环境中的实践,包括资源隔离、参数配置、性能优化等方面,部分内容参考《HBase原理与实践》(非常建议大家好好读一读,一定会大有收获),以及笔者的实战...
2019-11-29 17:42:43
1050
原创 ClickHouse - LowCardinality 数据类型的神秘之旅
对于许多用户来说,ClickHouse 中存在很多神秘而陌生的功能,这些功能给 ClickHouse 带来了非常高的查询性能。LowCardinality 数据类型就是 ...
2019-11-26 18:30:00
4782
原创 Delta Lake - 数据更新的旅程
在《Delta Lake - 数据写入的旅程》文章中,我们已经从源码层面掌握了 Delta Lake 数据写入的实现过程,再结合 Delta Lake 的实战,相信读者应...
2019-11-22 08:00:00
1278
原创 Delta Lake - 数据写入的旅程
在《Delta Lake 事务日志实现的源码剖析》文章中,我们已经从源码层面大致熟悉了 Delta Lake 事务日志的实现过程。最近不少读者反馈,希望笔者从 Delta...
2019-11-16 15:39:33
2214
原创 Delta Lake - 数据湖的数据可靠性
今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员,也是 Spark SQL 的最初...
2019-11-14 20:30:04
1225
原创 Delta Lake 事务日志实现的源码剖析
笔者在之前的文章《实战深入理解 Delta Lake 事务日志》中带大家把 Delta Lake 的事务日志大致操作了一遍,并进行了具体的分析。有了之前的基础,笔者将在本...
2019-11-10 16:33:12
696
原创 Google Mesa - 全球复制、准实时和可扩展的数据仓库
1. 背景为了更深入地研究 Apache Doris 开源项目,今天笔者和大家聊一下 Doris 项目所使用的 Google Mesa 技术。关于该项目的详细论文资料可以...
2019-11-07 08:06:49
2044
1
原创 Apache Doris 0.11.x 版本升级
背景项目计划基于 Apache Doris 构建在线实时数据查询平台,目前准生产环境部署的版本为 0.10.13-release ,来自百度内部发布的分支版本,和 Apa...
2019-11-01 08:17:13
1140
原创 实战深入理解 Delta Lake 事务日志
笔者在介绍 Delta Lake 的上篇文章中提到过,Delta Lake 的 事务日志是非常重要的,Delta Lake 提供的多个特性都和事务日志相关,比如 ACID...
2019-10-29 08:15:00
1546
原创 Delta Lake - 数据湖的开放标准
最近在 Spark + AI Summit 峰会上,Databricks 和 Linux 基金会共同宣布 Delta Lake 现在由 Linux 基金会托管,将成为数据...
2019-10-20 18:40:53
1468
原创 深入理解ClickHouse-本地表和分布式表
在集群的每个机器上面建立本地表这里需要谨记,在进行下面的操作前(使用ReplicatedMergeTree表引擎),必须保证集群配置中internal_replication=true且配置了zookeeper。1. 先任选一台机器建个表插入数据(方便测试)CREATE TABLE IF NOT EXISTS bank (\age UInt16, \job String, \marit...
2019-09-12 09:49:17
28831
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人