大数据松松-优快云博客

原创数仓开发流程规范

数据研发规范化旨在为数据开发提供规范化的研发流程指导方法，目的是简化、规范化日常工作流程，提高工作效率，较少无效与冗余工作，赋能企业更强大的数据掌控力来应对海量增长的业务数据，从而释放更多的人力与财力专注于业务创新。

2024-05-11 11:28:08 1225

原创机器学习【如何学习】

机器学习是一门快速发展的学科，学习机器学习需要掌握一定的数据基础和编程能力。但是很多人一听到数学就头大，就退缩，导致想要学习的新已经有两三年了，但是学习的行动一直在心里，迟迟没有落地，有时候学习一个东西并不需要掌握那么多前置的准备知识，可以先上手，尝试了再说，就像学些编程语言一样，我们最先开始的都是从Hello World！开始。

2024-05-11 10:09:13 817

原创机器学习【简述】

机器学习是一门快速发展的技术，他在未来的应用将会更加广泛。随着人工智能技术的不断发展，机器学习将会在各个领域发挥越来越重要的作用。相信在未来，机器学习将会带来我们更多的惊喜。

2024-05-10 14:56:42 620

原创数仓建模【埋点设计与管理】

埋点是数据平台很重要的一部分，如果只有业务数据没有埋点数据，那么用户在我们平台上的一切行为对我们来说都是黑盒，所以我们想要做到精细化运维埋点是必须的；优于埋点的数据从产生使用链路很长，而且很复杂，这就需要我们做好设计和管理工作。

2024-05-09 11:16:23 1206

那些所谓的努力时光，是真的头脑风暴了，还是，只是看起来很努力而已?当我们在社交网络上花费很多时间把认为有用的东西另存为时，直到你的硬盘存得满满当当，然而你却没有看过。可见，累了一辈子，争了一辈子，自己能用上的也不过30%，欲望满足了也是苦。信息爆炸的今天，各种欲望扑面而来，每个人不仅在外面不停地忙，内心也特别忙，忙了一辈子，最后却不知道自己到底在忙什么。束缚你的永远是你自己，所以解开它的，也只有靠你自己。牢记一句话：“所有的努力都不是给别人看的，很多时候，英雄都是孤独的”。《你只是看起来很努力》李尚龙。

2024-04-17 15:07:03 606

原创 MapReduce过程解析

将数据写入本地磁盘前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。写入磁盘之前，线程会根据 ReduceTask 的数量，将数据分区，一个 Reduce 任务对应一个分区的数据。这样做的目的是为了避免有些 Reduce 任务分配到大量数据，而有些 Reduce 任务分到很少的数据，甚至没有分到数据的尴尬局面。如果此时设置了 Combiner ，将排序后的结果进行 Combine 操作，这样做的目的是尽可能少地执行数据写入磁盘的操作。

2024-04-11 20:59:13 768

原创 CDA-LevelⅡ【数据分析模型】

解释性建模：理解模型中的关键因素和变量之间的互相作用。解释性建模的目标是创建一个能够清楚的解释模型的结果和结论的模型，以便可以帮助人们更好的解释数据和现象。聚类方法的基本逻辑是将数据集中的对象划分成多个类别或簇，使得同一类内的对象相似度尽可能高，不同类间的对象相似度尽可能低。需要注意的是，PCA是一种基于样本协方差矩阵的无监督学习方法，因此对数据的可信度和有效性有一定要求。残差期望为0（无内生性）假设：模型的残差项的期望值为0，这意味着模型中的任何遗漏变量并不影响模型的预测能力，也就是说，没有内生性问题；

2024-03-09 12:26:36 1445

原创数据管理【总结】

大数据：是指极其庞大的数据集，通常具备五大特征（5个V）：数据量大（Volume）、数据类型多样（Variety）、数据生成速度快（Velocity）、数据真实性高（Veracity）及数据价值大（Value）。数据仓库：数据仓库是一个集中的数据库，存储来自不同数据源的数据，供创建报告和执行分析。数据湖：数据湖是一个庞大的数据池，按照数据的原始格式或自然格式存储数据。数据湖常用于存储大数据，包括结构化数据、半结构化数据和非结构化数据。

2024-03-07 10:00:00 1978

原创数仓之【MaxCompute】

存储引擎：Maxcompute为您提供Maxcompute存储引擎（内部存储）用于存储Maxcompute表、资源等，同时您也可以通过外表的方式直接读取存储在OSS、TableStore、RDS等其他产品中的数据。其中Maxcompute存储引擎主要采用列压缩存储格式，通常情况下可达到5倍压缩比；计算引擎：Maxcompute提供Maxcompute SQL计算引擎和CUPID计算平台。Maxcompute SQL引擎：可直接运行Maxcompute SQL任务。

2024-03-06 13:59:37 1086

原创指标体系【指标名称大全】

指标体系是一个数仓对外输出的重要窗口。

2024-03-05 10:15:09 715

原创 Python【初识】

Python是一种高级的解释型编程语言，以其简洁、易学和强大的库支持而闻名。

2024-03-03 09:11:52 516

原创 Doris【数据模型】

在 Doris 中，数据以表（Table）的形式进行逻辑上的描述。一张表包括行（Row）和列（Column）。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。Column 可以分为两大类：Key 和 Value。从业务角度看，Key 和 Value 可以分别对应维度列和指标列。

2024-03-02 10:00:00 1852

原创数据仓库【分层设计】

数据仓库，通过数仓建模更好的组织管理和存储数据，以便在性能、成本、效率和质量之间取得最好的平衡。

2024-03-01 10:00:00 5979 1

原创 Doris【基础篇】

Doris（原百度Palo）是一款基于大规模并行处理技术的分布式SQL数据库。基于MPP的交互式SQL数据库，可以用于OLAP。MPP是将任务并行的分散到多个服务器和节点上，在每个节点上结算完后，将各个部分的结果汇总在一起得到最终的结果。

2024-02-29 10:00:00 4259

原创解释 Git 的基本概念和使用方式

Git是一种分布式版本控制系统，它被广泛用于管理软件开发项目的源代码。下面是Git的基本概念和使用方式的解释：1. 仓库（Repository）：Git使用仓库来存储项目的代码和版本历史记录。一个仓库可以包含多个文件和文件夹。2. 提交（Commit）：提交是将代码更改保存到Git仓库的操作。每次提交都会生成一个唯一的标识符（SHA-1哈希值）。3. 分支（Branch）：分支是基于主线（主分支）创建的一个拷贝，用于独立开发新功能或修复错误，而不会影响主分支的代码。

2024-02-28 10:00:00 381

原创 Spark之【性能调优】

task在运行地时候，想要使用广播变量中地数据，此时首先会在自己本地的Executor对应的BlackManager中尝试获取变量，如果本地没有，BlockManager就会从Driver或者其他节点的BlockManager上远程拉取变量的副本，并由本地的BlockManager进行管理，之后此Executor的所有task都会直接从本地的BlockManager中获取变量。默认情况下，task中地算子如果使用了外部地变量，每个task都会获取一份变量地副本，这就造成了内存极大地消耗。

2024-02-27 10:00:00 1906 3

原创 Spark之【Shuffle】

Shuffle是大数据中的性能杀手，其来源于大数据中的元老级组件Hadoop。在Hadoop中，map被定义为数据的初次拆分获取解析阶段，reduce被定义为负责最终数据的收集汇总阶段，除了业务逻辑的功能外，其他的核心数据处理都是由shuffle来支持。

2024-02-26 10:00:00 1550

原创 Spark之【数据倾斜】

Apache Spark中的数据倾斜指的是，在处理的数据其在不同分区之间分布不均匀的情况。在理想的情况下，数据应该均匀的分布在所有的分区上，以确保最大的并行度，从而提高处理速度。然而，现实的情况是数据通常并不完全平衡，当一个或几个分区的数据量与其他不成比例时，就会出现数据倾斜的情况。这种数据不平衡会极大的影响Spark应用程序的性能，导致处理时间更长、资源使用效率低下，甚至出现内存不足的错误。

2024-02-25 10:00:00 610

原创数据域VS主题域

数据域和主题域是数据仓库中两个重要的概念，他们在数据仓库建设和数据分析中扮演着不同的角色，两者有着明显的区别。总结：建设数仓就像饭店做菜一样，数据域如同厨房根据采购的食材特点将他们摆放在不同货架区，如肉区、蔬菜区、水果区、调味区等。主题域如同饭店根据不同食客群体的口味需求将食材做成不同的菜系，如鲁菜、川菜等。

2024-02-24 10:00:00 1946

原创 OLTP、OLAP与HTAP、HSAP详解

HTAP、HSAP是OLAP与OLTP综合需求驱动下的新的数据库系统，既满足事务处理，又满足大规模分析查询，并且是基于一套系统下实现。

2024-02-23 13:50:24 4253 1

原创数据仓库【指标体系】

指标体系可以帮助我们整体理解业务、全面了解问题、快速定位问题、迅速落地方案，我们说的指标体系不止是指标，还有指标管理和指标监控。

2024-02-22 14:15:00 5570

原创 Spark之【基础介绍】

Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。

2024-02-21 09:10:03 1705

原创缓慢变化维【拉链表】

SCD：Slowly Changing Dimension，缓慢变化维就是变化相对缓慢（相对于变化快速的事实数据来说）的维度。在现实世界中，维度的属性并不是静态的，它会随着时间流逝发生缓慢的变化，这种随着时间发生变化的维度我们一般称之为“缓慢变化维”，并且把处理维度表的历史变化信息的问题称之为处理缓慢变化维的问题，有时也简称为“处理SCD的问题”。拉链表是针对数据仓库中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。

2024-02-20 09:31:19 1156

原创 Hive【内部表、外部表、临时表、分区表、分桶表】【总结】

分区提供了一个隔离数据和优化查询的可行性方案，但是并非所有的数据集都可以形成合理的分区，分区的数量也不是越多越好，过多的分区条件可能导致很多分区上没有数据。分桶表会将指定的列的值进行哈希散列，并对bucket（桶数量）取余，然后存储到对应的bucket中。分区表和分桶表的本质都是将数据按照不同粒度进行拆分，从而使得在查询的时候不必扫描全表，只需要扫描对应的分区或分桶，从而提升查询的效率。如果查询的where子句中包含分区条件，则直接从该分区查找，而不是扫描整个目录，合理的分区可以极大的提高查询速度和性能。

2024-02-19 11:45:21 3223

xiayuhaisong的博客

原创数仓开发流程规范

原创机器学习【如何学习】

原创机器学习【简述】

原创数仓建模【埋点设计与管理】

原创鸡汤笔记-致自己

原创 MapReduce过程解析

原创 CDA-LevelⅡ【数据分析模型】

原创数据管理【总结】

原创数仓之【MaxCompute】

原创指标体系【指标名称大全】

原创 Python【初识】

原创 Doris【数据模型】

原创数据仓库【分层设计】

原创 Doris【基础篇】

原创解释 Git 的基本概念和使用方式

原创 Spark之【性能调优】

原创 Spark之【Shuffle】

原创 Spark之【数据倾斜】

原创数据域VS主题域

原创 OLTP、OLAP与HTAP、HSAP详解

原创数据仓库【指标体系】

原创 Spark之【基础介绍】

原创缓慢变化维【拉链表】

原创 Hive【内部表、外部表、临时表、分区表、分桶表】【总结】

原创 HiveSQL经典面试题（建议点赞收藏）

原创 HBase使用文档

原创 Spark与Hadoop对比

原创 Spark之【任务流程】

原创 SQL专题【开窗函数】

原创数据仓库【建模理解】

原创数据仓库【SQL优化】

原创数据仓库【模型好坏】

原创数据仓库【开发流程】

原创数据仓库【数据治理】

空空如也

空空如也