- 博客(34)
- 收藏
- 关注
原创 数仓开发流程规范
数据研发规范化旨在为数据开发提供规范化的研发流程指导方法,目的是简化、规范化日常工作流程,提高工作效率,较少无效与冗余工作,赋能企业更强大的数据掌控力来应对海量增长的业务数据,从而释放更多的人力与财力专注于业务创新。
2024-05-11 11:28:08
1225
原创 机器学习【如何学习】
机器学习是一门快速发展的学科,学习机器学习需要掌握一定的数据基础和编程能力。但是很多人一听到数学就头大,就退缩,导致想要学习的新已经有两三年了, 但是学习的行动一直在心里,迟迟没有落地,有时候学习一个东西并不需要掌握那么多前置的准备知识,可以先上手,尝试了再说,就像学些编程语言一样,我们最先开始的都是从Hello World!开始。
2024-05-11 10:09:13
817
原创 机器学习【简述】
机器学习是一门快速发展的技术,他在未来的应用将会更加广泛。随着人工智能技术的不断发展,机器学习将会在各个领域发挥越来越重要的作用。相信在未来,机器学习将会带来我们更多的惊喜。
2024-05-10 14:56:42
620
原创 数仓建模【埋点设计与管理】
埋点是数据平台很重要的一部分,如果只有业务数据没有埋点数据,那么用户在我们平台上的一切行为对我们来说都是黑盒,所以我们想要做到精细化运维埋点是必须的;优于埋点的数据从产生使用链路很长,而且很复杂,这就需要我们做好设计和管理工作。
2024-05-09 11:16:23
1206
原创 鸡汤笔记-致自己
那些所谓的努力时光,是真的头脑风暴了,还是,只是看起来很努力而已?当我们在社交网络上花费很多时间把认为有用的东西另存为时,直到你的硬盘存得满满当当,然而你却没有看过。可见,累了一辈子,争了一辈子,自己能用上的也不过30%,欲望满足了也是苦。信息爆炸的今天,各种欲望扑面而来,每个人不仅在外面不停地忙,内心也特别忙,忙了一辈子,最后却不知道自己到底在忙什么。束缚你的永远是你自己,所以解开它的,也只有靠你自己。牢记一句话:“所有的努力都不是给别人看的,很多时候,英雄都是孤独的”。《你只是看起来很努力》李尚龙。
2024-04-17 15:07:03
606
原创 MapReduce过程解析
将数据写入本地磁盘前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。写入磁盘之前,线程会根据 ReduceTask 的数量,将数据分区,一个 Reduce 任务对应一个分区的数据。这样做的目的是为了避免有些 Reduce 任务分配到大量数据,而有些 Reduce 任务分到很少的数据,甚至没有分到数据的尴尬局面。如果此时设置了 Combiner ,将排序后的结果进行 Combine 操作,这样做的目的是尽可能少地执行数据写入磁盘的操作。
2024-04-11 20:59:13
768
原创 CDA-LevelⅡ【数据分析模型】
解释性建模:理解模型中的关键因素和变量之间的互相作用。解释性建模的目标是创建一个能够清楚的解释模型的结果和结论的模型,以便可以帮助人们更好的解释数据和现象。聚类方法的基本逻辑是将数据集中的对象划分成多个类别或簇,使得同一类内的对象相似度尽可能高,不同类间的对象相似度尽可能低。需要注意的是,PCA是一种基于样本协方差矩阵的无监督学习方法,因此对数据的可信度和有效性有一定要求。残差期望为0(无内生性)假设:模型的残差项的期望值为0,这意味着模型中的任何遗漏变量并不影响模型的预测能力,也就是说,没有内生性问题;
2024-03-09 12:26:36
1445
原创 数据管理【总结】
大数据:是指极其庞大的数据集,通常具备五大特征(5个V):数据量大(Volume)、数据类型多样(Variety)、数据生成速度快(Velocity)、数据真实性高(Veracity)及数据价值大(Value)。数据仓库:数据仓库是一个集中的数据库,存储来自不同数据源的数据,供创建报告和执行分析。数据湖:数据湖是一个庞大的数据池,按照数据的原始格式或自然格式存储数据。数据湖常用于存储大数据,包括结构化数据、半结构化数据和非结构化数据。
2024-03-07 10:00:00
1978
原创 数仓之【MaxCompute】
存储引擎:Maxcompute为您提供Maxcompute存储引擎(内部存储)用于存储Maxcompute表、资源等,同时您也可以通过外表的方式直接读取存储在OSS、TableStore、RDS等其他产品中的数据。其中Maxcompute存储引擎主要采用列压缩存储格式,通常情况下可达到5倍压缩比;计算引擎:Maxcompute提供Maxcompute SQL计算引擎和CUPID计算平台。Maxcompute SQL引擎:可直接运行Maxcompute SQL任务。
2024-03-06 13:59:37
1086
原创 Doris【数据模型】
在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。
2024-03-02 10:00:00
1852
原创 Doris【基础篇】
Doris(原百度Palo)是一款基于大规模并行处理技术的分布式SQL数据库。基于MPP的交互式SQL数据库,可以用于OLAP。MPP是将任务并行的分散到多个服务器和节点上,在每个节点上结算完后,将各个部分的结果汇总在一起得到最终的结果。
2024-02-29 10:00:00
4259
原创 解释 Git 的基本概念和使用方式
Git是一种分布式版本控制系统,它被广泛用于管理软件开发项目的源代码。下面是Git的基本概念和使用方式的解释:1. 仓库(Repository):Git使用仓库来存储项目的代码和版本历史记录。一个仓库可以包含多个文件和文件夹。2. 提交(Commit):提交是将代码更改保存到Git仓库的操作。每次提交都会生成一个唯一的标识符(SHA-1哈希值)。3. 分支(Branch):分支是基于主线(主分支)创建的一个拷贝,用于独立开发新功能或修复错误,而不会影响主分支的代码。
2024-02-28 10:00:00
381
原创 Spark之【性能调优】
task在运行地时候,想要使用广播变量中地数据,此时首先会在自己本地的Executor对应的BlackManager中尝试获取变量,如果本地没有,BlockManager就会从Driver或者其他节点的BlockManager上远程拉取变量的副本,并由本地的BlockManager进行管理,之后此Executor的所有task都会直接从本地的BlockManager中获取变量。默认情况下,task中地算子如果使用了外部地变量,每个task都会获取一份变量地副本,这就造成了内存极大地消耗。
2024-02-27 10:00:00
1906
3
原创 Spark之【Shuffle】
Shuffle是大数据中的性能杀手,其来源于大数据中的元老级组件Hadoop。在Hadoop中,map被定义为数据的初次拆分获取解析阶段,reduce被定义为负责最终数据的收集汇总阶段,除了业务逻辑的功能外,其他的核心数据处理都是由shuffle来支持。
2024-02-26 10:00:00
1550
原创 Spark之【数据倾斜】
Apache Spark中的数据倾斜指的是,在处理的数据其在不同分区之间分布不均匀的情况。在理想的情况下,数据应该均匀的分布在所有的分区上,以确保最大的并行度,从而提高处理速度。然而,现实的情况是数据通常并不完全平衡,当一个或几个分区的数据量与其他不成比例时,就会出现数据倾斜的情况。这种数据不平衡会极大的影响Spark应用程序的性能,导致处理时间更长、资源使用效率低下,甚至出现内存不足的错误。
2024-02-25 10:00:00
610
原创 数据域VS主题域
数据域和主题域是数据仓库中两个重要的概念,他们在数据仓库建设和数据分析中扮演着不同的角色,两者有着明显的区别。总结:建设数仓就像饭店做菜一样,数据域如同厨房根据采购的食材特点将他们摆放在不同货架区,如肉区、蔬菜区、水果区、调味区等。主题域如同饭店根据不同食客群体的口味需求将食材做成不同的菜系,如鲁菜、川菜等。
2024-02-24 10:00:00
1946
原创 OLTP、OLAP与HTAP、HSAP详解
HTAP、HSAP是OLAP与OLTP综合需求驱动下的新的数据库系统,既满足事务处理,又满足大规模分析查询,并且是基于一套系统下实现。
2024-02-23 13:50:24
4253
1
原创 数据仓库【指标体系】
指标体系可以帮助我们整体理解业务、全面了解问题、快速定位问题、迅速落地方案,我们说的指标体系不止是指标,还有指标管理和指标监控。
2024-02-22 14:15:00
5570
原创 缓慢变化维【拉链表】
SCD:Slowly Changing Dimension,缓慢变化维就是变化相对缓慢(相对于变化快速的事实数据来说)的维度。在现实世界中,维度的属性并不是静态的,它会随着时间流逝发生缓慢的变化,这种随着时间发生变化的维度我们一般称之为“缓慢变化维”,并且把处理维度表的历史变化信息的问题称之为处理缓慢变化维的问题,有时也简称为“处理SCD的问题”。拉链表是针对数据仓库中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
2024-02-20 09:31:19
1156
原创 Hive【内部表、外部表、临时表、分区表、分桶表】【总结】
分区提供了一个隔离数据和优化查询的可行性方案,但是并非所有的数据集都可以形成合理的分区,分区的数量也不是越多越好,过多的分区条件可能导致很多分区上没有数据。分桶表会将指定的列的值进行哈希散列,并对bucket(桶数量)取余,然后存储到对应的bucket中。分区表和分桶表的本质都是将数据按照不同粒度进行拆分,从而使得在查询的时候不必扫描全表,只需要扫描对应的分区或分桶,从而提升查询的效率。如果查询的where子句中包含分区条件,则直接从该分区查找,而不是扫描整个目录,合理的分区可以极大的提高查询速度和性能。
2024-02-19 11:45:21
3223
原创 HBase使用文档
Hbase源于Google大数据三大论文之Big Table而来,是一个分布式海量列式非关系型数据库系统,可以提供超大规模数据集的实时随机读写。Hbase是一个开源的、分布式的、版本化的NoSQL(即非关系型数据库),依托于Hadoop分布式文件系统HDFS提供分布式数据存储,利用MapReduce来处理海量数据,用Zookeeper作为其分布式协调服务,一般用于存储海量数据。HDFS与Hbase的区别在于,HDFS是文件系统,而Hbase是数据库。
2024-02-06 17:01:49
875
原创 Spark与Hadoop对比
通常情况下,Apache Spark运行速度是要比Apache Hadoop MapReduce的运行速度要快,因为Spark是在继承了MapRudece分布式计算的基础上做了内存计算的优化,从而避免了MapReduce每个阶段都要数据写入磁盘的操作,这样就减少了很多低效的I/O操作。
2024-02-04 11:42:48
1775
原创 Spark之【任务流程】
Spark的任务提交流程其实跟我们日常大数据部门需求开发流程极其类似。SparkContext相当于我们的产品经理,他会提出需求、确认口径,并且会规划整体的开发计划;资源管理器就是我们数据部门的小组长,他知道组内的开发资源,包括哪个工程师有时间,哪个工程师对需求响应的业务更加了解;Executor更像是我们的开发工程师,不断地向小组长反馈手中的工作量,并且向项目产品经理实时反馈开发进度。
2024-02-02 17:17:17
641
原创 SQL专题【开窗函数】
开窗函数语法:【函数】over(partition by [字段名1] order by [字段名2]),两个关键字 partition by和order by可以只出现一个。开窗函数跟聚合函数的区别在于:聚合函数返回一条;开窗函数不改变记录条数,更像是在明细数据后面打了一个聚合的标签。
2024-02-02 15:16:31
460
原创 数据仓库【建模理解】
分层不仅可以解决业务快速的数据支撑,也可以为未来抽象出共性的通用层,能够为 业务发展提供稳定、准确的数据支撑,并且可以为新业务的发展提供数据决策方向,也就是数据驱动和赋能。贴源层ODS(Operational Data Store):又称数据基础层,将原数据几乎无处理的存放在数据仓库系统中,结构与业务源系统保持一致,目的是出现了问题可以做数据溯源用。明细数据层DWD(Data Warehouse Detail):以业务过程作为建模驱动,基于每个业务过程特点,构建最细粒度的数据主题明细事实表。
2024-02-02 10:17:34
647
原创 数据仓库【SQL优化】
每个sqlboy工作一段时间后都会面临这一个能力提升问题--Sql优化。本文通过更通俗易懂的话术讲解sql优化的策略内容。提供一个从业务需求探查到最终上线全流程的sql优化方案,如有缺失,希望大家多多交流补充。
2024-02-01 13:54:30
1567
原创 数据仓库【模型好坏】
数据仓库的好坏分为内部评价标准和外部评价标准。数据仓库既不能闭门造车,也不能完全跟着业务需求走,好的数据仓库模型一定是将数仓模型跟业务需求很好的兼容结合,适合我们自己的才是最好的。
2024-01-31 17:53:07
507
原创 数据仓库【数据治理】
数据治理是要贯穿整个数据仓库的设计开发全流程的,数据治理也不是能一步到位的,在我们不断对业务了解、数据了解、需求了解后,不断的优化迭代,设计开发出适合自己业务的数据仓库才是最好的。数据治理是一个不断雕刻的过程,有点类似代码重构,只有不断的将数据跟业务融合,才能不断的提升数据服务,体现数据仓库价值。
2024-01-30 20:14:57
2296
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人