garagong
腾讯大数据、人工智能解决方案架构师、原京东集团云计算架构师,从事能源行业信息化工作长达17年,擅长云计算、大数据、AI大模型等技术培训、结合业务场景编写落地方案。
展开
-
【个人笔记】一起入门OLAP多维数据分析
OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的核心概念是“维”(dimension),维是人们观察客观世界的角度,是一种高层次的类型划分。原创 2024-02-21 16:15:24 · 572 阅读 · 0 评论 -
【个人笔记】Presto实现原理
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。同时,Presto支持多种数据源,最新的版本已支持Apache Accumulo,HDFS,Redis,Postgresql,MySQL等,支持多数据源JOIN查询。原创 2024-02-21 16:04:49 · 350 阅读 · 0 评论 -
【个人笔记】ClickHouse 查询优化
ClickHouse是OLAP(Online analytical processing)数据库,以速度见长;ClickHouse为什么能这么快?有两点原因:架构优越、关注底层细节;但是,数据库设计再优越也拯救不了错误的使用方式,本文以MergeTree引擎家族为例讲解如何对查询优化原创 2024-01-16 16:48:04 · 746 阅读 · 0 评论 -
【个人笔记】由浅入深分析 ClickHouse
ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK。- 由俄罗斯第一大搜索引擎Yandex(俄罗斯版百度搜索)旨在提升网页点击日志分析性能 替换原来的MySQL引擎。- 2016.6.15开源,性能远超同期竞品- Github 19K+ stars, 社区非常活跃 国内各大公司广泛使用 (https://db-engines.com/en/ranking)- RoadMap 逐渐转向通用分析性数据库 https://github.com/ClickHo原创 2024-01-16 16:30:07 · 458 阅读 · 0 评论 -
个人笔记:Flink 全面深入研究(一文就够了)
大数据计算分为离线计算和实时计算,其中离线计算就是我们通常说的批计算,代表技术是Hadoop MapReduce、Hive等;实时计算也被称作流计算,代表技术是Storm、Spark Streaming、Flink等。本文系统地介绍了流式计算的相关知识,并着重介绍了Flink的实现原理细节,便于大家快速地理解和掌握流式计算,并基于Flink完成业务开发。原创 2024-01-11 10:12:32 · 558 阅读 · 0 评论 -
Spark避坑系列(三)(Spark Core-RDD 依赖关系&持久化&共享变量)
该篇章主要介绍spark的编程核心RDD的其他概念,依赖关系,持久化,广播变量,累加器等原创 2024-01-11 09:43:16 · 542 阅读 · 0 评论 -
Spark避坑系列二(Spark Core-RDD编程)
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。原创 2024-01-09 08:42:01 · 1080 阅读 · 0 评论 -
Spark避坑系列一(基础知识)
Spark作为大数据领域离线计算的王者,在分布式数据处理计算领域有着极高的处理效率,而Python作为Spark支持的开发的重要语言之一,特别对各类机器学习算法的支持,使得有着极高的使用率,本系列文章将通过介绍Spark的基础使用,带大伙入坑Spark原创 2024-01-09 08:29:00 · 946 阅读 · 0 评论 -
个人笔记:分布式大数据技术原理(二)构建在 Hadoop 框架之上的 Hive 与 Impala
有了 MapReduce,Tez 和 Spark 之后,程序员发现,MapReduce 的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了 Pig 和 Hive。Pig 是接近脚本方式去描述 MapReduce,Hive 则用的是 SQL原创 2024-01-06 18:14:59 · 1439 阅读 · 0 评论 -
个人笔记:分布式大数据技术原理(一)Hadoop 框架
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型,实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障,从单个机器扩展到数千台机器(这些机器可以是廉价的),每个机器提供本地计算和存储,而不是依靠硬件提供高可靠性。原创 2024-01-06 17:57:06 · 1527 阅读 · 0 评论 -
浅谈MapReduce
从上述的信息来看,MapReduce主要的优点有1.易于编程,用户只需要自定义map和reduce函数即可。2.具有良好的扩展性,可以通过增加worker的数量来扩展计算能力。3.具有一定的容灾能力,master可以通过定期写入一些持久化信息进行进度的备份,保证master挂了之后可以读取这些信息恢复;而worker挂了的话,它负责的任务可以由master重新调度给其他worker进行作业。4.适合PB级别以上大数据的离线处理。原创 2023-12-15 14:33:16 · 1100 阅读 · 0 评论 -
Hive 浅析
Hive是一个简单的LUA沙盒,除了基本的LUA解释器的功能以外,还提供了诸如热加载等功能。了解HIVE的工作原理有利于了解Lua虚拟机的底层实现机理。本文从是什么-怎么用-为什么三个维度介绍HIVE。原创 2023-12-08 17:31:23 · 1274 阅读 · 0 评论 -
什么是数据架构
本文章对于有准备或者已进入数据治理、大数据行业的从业人员、准备考试DAMA认证的人员、准备学习大数据、数据治理的在校学生可以参考和学习,本文章是根据个人的知识能力,结合在工作中的实践经验,进行梳理总结,记录下来,文档中有不当之处,请谅解。原创 2023-12-07 14:36:51 · 1574 阅读 · 0 评论