浪尖聊大数据-浪尖-优快云博客

转载 4w字Spark调优宝典(推荐收藏)

1 性能调优1分配更多资源分配哪些资源？Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...

2021-06-25 09:00:00 1272

转载 spark shuffle的几种特殊情况

1.shuffle概览一个spark的RDD有一组固定的分区组成，每个分区有一系列的记录组成。对于由窄依赖变换（例如map和filter）返回的RDD，会延续父RDD的分区信息，以pipe...

2021-06-15 09:00:00 973

1.数仓建模的理由数据建模的主要目的是降低成本，提高数据的利用效率。尤其是大数据时代的到来，数据的多样化，巨量，更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法，更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点，一般我们会从以下面四点考虑：性能：能够快速查询所需的数据，减少数据I/O的吞吐。成本：减少不必要的数据冗余，实现计算结果的复用，降低大数据系统中的存储成本和计算成本。效率：改善用使用数据的体验，提高使用效率。

2021-06-12 20:12:51 3077 1

转载那些被问懵逼的数仓面试题

数仓构建：1). 前期业务调研需求调研数据调研技术选型2). 提炼业务模型，总线矩阵，划分主题域；3). 定制规范命名规范、开发规范、流程规范4). 数仓架构分层：一般分为操...

2020-12-16 08:34:00 1136

转载 8种ETL算法模型汇总大全！看完你就全明白了

摘要：ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加...

2020-12-07 17:55:22 3423

原创浪尖聊聊大数据从业者的迷茫及解决方案

最近不少粉丝找浪尖私聊，说做大数据久了比较迷茫，今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办！一现状目前的迷茫最主要原因是行业趋势所致，了解一下大数据行业的现状：对于整个...

2020-12-06 16:08:14 1657 5

转载面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目，用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口，它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 919

原创面试｜spark刷爆磁盘与java弱引用的关系

一引用基本概念如下面，定义两个变量num，str，存储模型大致如下图：int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8；变量str...

2020-11-11 08:35:34 411

转载 Hbase Bulkload 原理｜面试必备

当需要大批量的向Hbase导入数据时，我们可以使用Hbase Bulkload的方式，这种方式是先生成Hbase的底层存储文件 HFile，然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 1521

原创漫画｜讲解一下如何写简历&项目

star法写项目的案例：深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20，在深圳...

2020-11-06 08:19:00 1063

原创漫画面试回答kafka为何如此之快｜满分

一磁盘读写原理磁盘的结构图：当需要从磁盘读取数据时，要确定读的数据在哪个磁道，哪个扇区：首先必须找到柱面，即磁头需要移动对准相应磁道，这个过程叫做寻道，所耗费时间叫做寻道时间;然后目标...

2020-10-29 08:18:00 2768 11

转载大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展...

2020-10-25 09:38:32 3433 1

原创漫画讲解Kafka高效的存储设计｜面试

在开始讲解之前，先带着大家回忆一下kafka一些名词概念：a. Broker：提供数据存储和数据读写服务实例，一个Kafka节点就是一个broker，多个broker可以组成一个Kafk...

2020-10-22 08:25:00 875

原创漫画全面解释Spark企业调优点

一：资源配置一般企业中，物理机器的cpu:内存基本上都是1:4+，比如机器24core，一般有128GB及以上内存；48core，一般有256GB及以上内存。减去系统及hdfs所需cor...

2020-10-18 20:43:40 906 4

转载 6100亿美元AI循环融资泡沫

科技巨头、AI初创公司、云服务商与芯片厂商之间，通过相互投资、长期采购承诺和债务融资，形成一个闭环资金流。同一笔资本在生态内多次流转，反复计入英伟达等硬件厂商的营收，但底层缺乏真实终端盈利支撑。：一笔10亿美元的投资，可能在英伟达财报中体现为“硬件销售”，在云厂商体现为“资本开支”，在AI公司体现为“算力成本”。：多数AI模型尚未实现商业化盈利（如OpenAI年收入约37亿，但年烧钱超100亿）。若两者皆延迟，则“泡沫”可能温和挤出；：从“买入”调至“中性”，理由：“DSO恶化+库存积压反映需求见顶”

2025-11-24 13:58:12 106

转载 Delta Join：为超大规模流处理实现计算与历史数据解耦

Apache Flink 一直以来都擅长有状态流处理，但传统流式 Join 在面对海量数据和高基数 Key 时却遇到了瓶颈。它不再将所有数据缓存在内部，而是将 Join 转变为一种无状态的查询机制，直接从 Apache Fluss 或 Apache Paimon 等外部表中实时获取所需数据。虽然 Fluss 是 Delta Join 的初始载体，但 Flink 社区正积极推动其与开源湖仓格式的融合。算子不再将全部历史数据存于 Flink 状态，而是在需要时才去外部存储查询。从此告别状态爆炸式增长。

2025-11-21 15:57:30 51

转载深夜找打印店？这台“随身打印机”，让孩子的作业再也不耽搁！

期末复习资料、社会实践报告、毕业设计论文、竞赛项目书……快猫云印小程序，专为。：激光黑白（字迹清晰）、激光彩色（报告亮眼）、喷墨彩印（图片惊艳）量身打造，将专业的打印服务装进您的手机里，7x24小时随时待命。：手工报、调研报告、读书笔记，需要彩色打印和装订。：老师要求双面打印、胶装、用B5纸。：单面/双面、普通纸/护眼纸，随心搭配，保护孩子视力。：A4、A3、B5。】：各种需要打印填写的申请表、证件照，在家就能完成。：墨盒干了、没纸了、卡纸了。：老师群里的练习题、拓展阅读材料，随时打，随时做。

2025-11-07 17:36:38 117

转载 Flink 2.1 SQL：解锁实时数据与AI集成，实现可扩展流处理

而通过 Delta Join，我们将状态外卸至 Fluss 等外部存储系统，实现了秒级检查点，CPU 与内存使用降低超 80%，启动冷启时间缩短 87%，并首次实现了 Join 算子的实时可追溯性。与传统 Join 方式将所有数据缓存在 Flink 状态后端不同，Delta Join 转而依赖外部存储系统（例如基于 RocksDB 构建的 Apache Fluss），将数据存于外部，实现真正的无状态计算。Multi-Way Join：消除多流关联中的冗余状态，实现更轻量、更快速的 Join 处理。

2025-10-24 08:00:49 91

转载推荐一款高性价比智能打印小程序

有时候只是几页资料、合同、论文，找打印店、传文件、排队、取件，既浪费时间又不方便。它支持从手机直接上传文件（PDF、Word、PPT、图片都可以），于是，我利用业余时间，做了这个小程序 ——我想用技术让打印这件事变得更简单、更可靠。大家好，我是一名 34 岁+ 的程序员。📚 无论是学习资料、论文打印、公司合同，🧾 还是孩子的作业讲义、培训讲稿，都能在手机上一键完成打印下单，A4、A3、B5 等纸张规格。如果你也希望打印文件更轻松，单面、双面、普通纸、护眼纸。订书钉、骑马钉、胶装。实用、省心、质量稳定。

2025-10-23 10:13:17 88

转载 Flink Agents：基于Apache Flink的事件驱动AI智能体框架

随着 AI 技术的发展和成熟，未来智能体的发展方向必然是工业化的，也就是说会有更多的 AI 请求由系统自动触发，而不需要人工手动操作。它不仅继承了 Apache Flink 在流处理领域的技术优势，还针对 AI 应用的特殊需求进行了专门的设计和优化，有望成为下一代 AI 应用开发的重要工具。稳定性是另一个重要要求。基于这些分析结果，AI 可以提供有价值的建议，比如根据观众的性别和年龄分布来调整商品推荐策略，或者根据观众的年龄特征来选择合适的背景音乐。第一层是基础的模型调用能力，这是所有 AI 应用的基础。

2025-10-08 09:34:38 80

转载基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路

ARCoder一个专于主AR应用，AR游戏，增强现实应用，增强现实游戏，AI智能体，AI对话，AI聊天，AI角色扮演，智能客服，AIAgent开发的小程序。希望打造AI+AR的增强现实和智能场景。您也可以借助它打造自己的智能体和角色。01项目背景1.1 当前实时数仓架构当前的淘天实时架构是从日志服务器和业务数据库采集数据，实时数据采集到 TT （消息队列中间件，对标 Kafka）中，离线数据采集到盘古存储中；在公共层会启一个流批任务做流批计算，实时运行流任务，定时调度批任务；在计算层，实时和离线数据会写到

2025-07-03 09:07:34 160

转载 AR绘画 && AR涂鸦

ARCoder一个专于主AR应用，AR游戏，增强现实应用，增强现实游戏，AI智能体，AI对话，AI聊天，AI角色扮演，智能客服，AI+Agent开发的小程序。希望打造AI+AR的增强现实和智能场景。，在屏幕上绘制你想要的图形，然后会生成AR纸片人，然后活起来在AR世界里，增强绘画的趣味性。就是可以连续截图多张，然后将其动作连续播放，实现一个动画功能。系列动作类绘画比较适合。，这个就是将显示生活中的照片，生成一个纸片人，让他活跃起来，活到真实世界里。将AR+AI联合起来，生成制片人与你沟通，增加趣味性。

2025-06-24 10:08:05 120

转载干货分享 | 4万字全面解读数据中台、数据仓库、数据湖（建议收藏）

如今，随着诸如互联网以及物联网等技术的不断发展，越来越多的数据被生产出来。据统计，每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数据技术的不断更新和迭代，数据管理工具得到了飞速的发展，相关概念如雨后春笋一般应运而生，如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等，这些概念特别容易混淆，本文对这些名词术语及内涵进行系统的解析，便于读者对数据平台相关的概念有全面的认识。关系数据库本质上是一个二元关系，说的简单一些，就是一个

2025-05-18 11:08:27 257

转载详解如何在数仓中管理元数据

数据仓库，由数据仓库之父比尔·恩门（Bill Inmon）于 1990 年提出，主要功能仍是将组织透过资讯系统之联机事务处理（OLTP）经年累月所累积的大量资料，透过数据仓库理论所特有的资料储存架构，做有系统的分析整理，以利各种分析方法如联机分析处理、数据挖掘（Data Mining）之进行，并进而支持如决策支持系统（DSS）、主管资讯系统（EIS）之创建，帮助决策者能快速有效的自大量资料中，分析出有价值的资讯，以利决策拟定及快速回应外在环境变动，帮助建构商业智能（BI）。从而达到一个相对平衡的角度。

2025-05-08 09:11:47 259

转载开源大数据 OLAP 引擎最佳实践

实现了冷热的分层存储，节约了成本。经过改造之后，完美支持Upsert场景，Presto可以查询明细数据，CK的宽表数也可供Ad-hoc查询，CK的物化视图供BI系统查询。在LakeHouse场景中，StarRocks的联合查询，不但屏蔽了底层数据源的细节，而且可以对异构数据据源数据联合分析，与增量数据湖格式完美结合。其次，当所有聚合的数都导入Olap系统时，运营人员可以快速用它，实现自己新的想法，提升工作效率。除此之外，它支持向量化的查询，完善的SQL以及实时的数据更新，查询速度可以达到亚秒级的响应。

2025-04-14 09:47:28 275

转载 Dinky 和 Flink CDC 在实时整库同步的探索之路

摘要：主要讲述 Dinky 的整库同步技术方案演变至 Flink CDC Yaml 作业的探索历程，并深入讲解Flink CDC Yaml的一些细节能力。内容分为以下几个部分：01起源本次分享围绕数据集成，它也是 Flink CDC Yaml 作业的出现背景。在 Dinky 的众多用户中，我们总结出以下在传统的数据集成方案中普遍会遇到的问题：需要将业务库中的业务数据同步到分析库中，起到解耦分析的作用，一般有三点要求。要求数据必须一致、链路要求稳定、数据时效性尽可能要高。在传统的数据集成方案中可以通过离线和实

2025-04-12 18:12:02 146

转载 Flink Shuffle 技术演进之路

Shuffle 是分布式系统中数据流转的关键技术之一，对作业性能有着极为重要的影响，在计算引擎中扮演着重要角色。自 Flink 诞生以来，已有十年的发展历程。在 Shuffle 技术方面，Flink 也经历了多种 Shuffle 模式的演变，进行了多轮迭代和优化，实现了许多创新:从最初的 Pipelined Shuffle，到 Blocking Shuffle，再到创新性地提出 Hybrid Shuffle。本次分享主要探讨 Flink 社区在 Shuffle 方向遇到的问题、解决方法，以及对未来的思考和规

2025-04-09 13:58:08 158

转载 Flink基于Paimon的实时湖仓解决方案的演进

这是一个典型的流式湖仓架构，首先业务数据会存储在 MySQL 表中，然后借助 Flink 及其 CDC Connector 的作业，将这些数据库的数据同步到 Paimon 的 ODS 层中，从而构成 ODS 层数据。在有了 ODS 层数据之后通常会进行数据过滤，并进行数据的 Join 操作，以生成一个宽表，这就是 DWD 层的数据。接着在流式湖仓中也经常看到使用无主键表的情况，然而无主键表存在一个问题：它的所有数据都是根据写入时的顺序进行排序的，而在一个数据文件内部，所有列的数据是乱序的。

2025-04-08 09:56:25 187

转载 Apache Flink 2.0.0: 实时数据处理的新纪元

实时计算的成本居高不下，无论是昂贵的资源消耗，还是掌握复杂的分布式流处理概念所需的学习曲线，都限制了实时计算在更多样化应用场景中的发挥。在 Flink 2.0 中，Flink 社区与 Paimon 社区紧密合作，充分发挥各自优势和前沿功能，带来了显著的增强和优化。这有效缓解了由数据倾斜引起的长尾延迟。- 通过与 Apache Paimon 社区的合作，Paimon 的湖存储格式目前原生支持 Flink 物化表，将 Flink 的流批计算与 Paimon 的高性能 ACID 事务相结合，实现统一的数据服务。

2025-04-03 09:57:02 330

转载 Flink + Doris 实时湖仓解决方案

然而，这也会引发一些问题，例如，虽然它满足了两种场景的需求，但是整个操作过程非常复杂，两条流的数据如何保持一致成为难题，各种校验和对齐工作使得数据一致性很难得到保证。相比 MySQL 协议，ADBC 更适合高性能的数据传输，在 AI 和机器学习场景下，能够快速的传输大量的数据。IO优化：针对 HDFS 或者对象存储系统的特性，Doris 实施了涵盖小 IO 合并、IO 预取、延迟物化等诸多优化举措，助力用户在未命中缓存的情况下读取远端数据时，依旧能够实现较为良好的吞吐效果或者较低的延迟。

2025-04-02 09:27:41 293

转载 Flink 批处理自适应执行计划优化

如果用静态 Broadcast Hash Join 优化策略对它进行优化，我们只能通过统计信息得到右表的原始数据量，由于表的大小15MB大于 Broadcast 的阈值 10MB，因此它不会在编译期被优化为 Broadcast Hash Join，但是在实际运行的时候，经过 Filter 算子的过滤，它所在的 stage 产出的实际数据量只有5MB，又满足了 Broadcast 的阈值，但是在原有的架构下，由于逻辑拓扑无法被修改，因此它还是会按照SortMergeJoin的方式去执行。

2025-03-28 10:51:00 161

原创 AI如何帮助程序员减负的？

例如输入“创建连接SQL Server的C#数据库类”，AI可自动生成包含连接池管理、CRUD操作的基础代码，节省80%重复编码时间。Fitten Code根据代码逻辑输出API文档，文心快码实现注释与代码同步生成，节省30%文档维护时间。Kimi支持解析20万行代码库生成架构图，Tripo实现文字生成3D模型代码，拓展开发边界。腾讯、阿里等企业通过AI生成小程序全栈代码，自动处理跨端兼容性问题，开发周期缩短70%DeepSeek-R1支持基于企业代码库定制AI助手，实现私有化部署，适应特定开发规范。

2025-03-17 11:08:42 720

空空如也

空空如也