自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(2048)
  • 收藏
  • 关注

转载 4w字Spark调优宝典(推荐收藏)

1 性能调优1分配更多资源分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...

2021-06-25 09:00:00 1154

转载 spark shuffle的几种特殊情况

1.shuffle概览一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipe...

2021-06-15 09:00:00 889

原创 数仓建模方法论

1.数仓建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑: 性能:能够快速查询所需的数据,减少数据I/O的吞吐。 成本:减少不必要的数据冗余,实现计算结果的复用,降低大数据系统中的存储成本和计算成本。 效率:改善用使用数据的体验,提高使用效率。

2021-06-12 20:12:51 2765 1

转载 那些被问懵逼的数仓面试题

数仓构建:1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范4). 数仓架构分层:一般分为操...

2020-12-16 08:34:00 1050

转载 8种ETL算法模型汇总大全!看完你就全明白了

摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加...

2020-12-07 17:55:22 3148

原创 浪尖聊聊大数据从业者的迷茫及解决方案

最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办!一 现状目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状:对于整个...

2020-12-06 16:08:14 1564 5

转载 面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 841

原创 面试|spark刷爆磁盘与java弱引用的关系

一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...

2020-11-11 08:35:34 373

转载 Hbase Bulkload 原理|面试必备

当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 1394

原创 漫画|讲解一下如何写简历&项目

star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...

2020-11-06 08:19:00 978

原创 漫画面试回答kafka为何如此之快|满分

一 磁盘读写原理磁盘的结构图:当需要从磁盘读取数据时,要确定读的数据在哪个磁道,哪个扇区:首先必须找到柱面,即磁头需要移动对准相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间;然后目标...

2020-10-29 08:18:00 2717 11

转载 大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...

2020-10-25 09:38:32 3339 1

原创 漫画讲解Kafka高效的存储设计|面试

在开始讲解之前,先带着大家回忆一下kafka一些名词概念:a. Broker:提供数据存储和数据读写服务实例,一个Kafka节点就是一个broker,多个broker可以组成一个Kafk...

2020-10-22 08:25:00 824

原创 漫画全面解释Spark企业调优点

一:资源配置一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。减去系统及hdfs所需cor...

2020-10-18 20:43:40 867 4

转载 Apache Flink 2.0.0: 实时数据处理的新纪元

实时计算的成本居高不下,无论是昂贵的资源消耗,还是掌握复杂的分布式流处理概念所需的学习曲线,都限制了实时计算在更多样化应用场景中的发挥。在 Flink 2.0 中,Flink 社区与 Paimon 社区紧密合作,充分发挥各自优势和前沿功能,带来了显著的增强和优化。这有效缓解了由数据倾斜引起的长尾延迟。- 通过与 Apache Paimon 社区的合作,Paimon 的湖存储格式目前原生支持 Flink 物化表,将 Flink 的流批计算与 Paimon 的高性能 ACID 事务相结合,实现统一的数据服务。

2025-04-03 09:57:02 13

转载 Flink + Doris 实时湖仓解决方案

然而,这也会引发一些问题,例如,虽然它满足了两种场景的需求,但是整个操作过程非常复杂,两条流的数据如何保持一致成为难题,各种校验和对齐工作使得数据一致性很难得到保证。相比 MySQL 协议,ADBC 更适合高性能的数据传输,在 AI 和机器学习场景下,能够快速的传输大量的数据。IO优化:针对 HDFS 或者对象存储系统的特性,Doris 实施了涵盖小 IO 合并、IO 预取、延迟物化等诸多优化举措,助力用户在未命中缓存的情况下读取远端数据时,依旧能够实现较为良好的吞吐效果或者较低的延迟。

2025-04-02 09:27:41 30

转载 Flink 批处理自适应执行计划优化

如果用静态 Broadcast Hash Join 优化策略对它进行优化,我们只能通过统计信息得到右表的原始数据量,由于表的大小15MB大于 Broadcast 的阈值 10MB,因此它不会在编译期被优化为 Broadcast Hash Join,但是在实际运行的时候,经过 Filter 算子的过滤,它所在的 stage 产出的实际数据量只有5MB,又满足了 Broadcast 的阈值,但是在原有的架构下,由于逻辑拓扑无法被修改,因此它还是会按照SortMergeJoin的方式去执行。

2025-03-28 10:51:00 13

原创 AI如何帮助程序员减负的?

例如输入“创建连接SQL Server的C#数据库类”,AI可自动生成包含连接池管理、CRUD操作的基础代码,节省80%重复编码时间。Fitten Code根据代码逻辑输出API文档,文心快码实现注释与代码同步生成,节省30%文档维护时间。Kimi支持解析20万行代码库生成架构图,Tripo实现文字生成3D模型代码,拓展开发边界。腾讯、阿里等企业通过AI生成小程序全栈代码,自动处理跨端兼容性问题,开发周期缩短70%DeepSeek-R1支持基于企业代码库定制AI助手,实现私有化部署,适应特定开发规范。

2025-03-17 11:08:42 516

转载 deepseek多模态版本上线了|免费

我是 DeepSeek 能力增强版,你可以使用我来完成联网搜索、图片理解、读链接、生成图片、思维导图等需求。

2025-03-14 09:35:04 22

转载 基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

最初,尝试使用 Trino Java Connector,但发现 HUE 底层是通过 Python 代码构建的,而 Trino Java Connector 在使用时存在一些问题,特别是在内存管理方面,有时难以对 Java Gateway 实现内存的有效回收,这可能导致线上内存泄露。例如,在 Hudi 的某些场景中,可能会出现大小为 0 的 Marker File,这可能导致 Trino 在扫描时将这些无效文件纳入查询范围,从而造成查询卡顿,在内部镜像中对类似的问题进行了修复。

2025-03-14 09:35:04 65

转载 vivo基于Paimon的湖仓一体落地实践

摘要:本文整理自 vivo 互联网大数据专家、Apache Paimon Committer 徐昱老师在 Flink Forward Asia 2024 流式湖仓专场(一)中的分享。本次分享基于 vivo 的实际案例,展示在构建现代化数据湖仓过程中的一些关键决策和技术实践,包括组件选型、架构设计、性能优化以及数据迁移等方面的探索。内容分为以下几个部分:组件选型及架构离线加速流批链路统一消息组件平替...

2025-03-10 10:10:25 294

转载 小米基于 Apache Paimon 的流式湖仓实践

摘要:本文整理自计算平台软件研发工程师钟宇江老师在 Flink Forward Asia 2024 流式湖仓(一)专场中的分享。内容主要为以下三部分:背景介绍基于 Paimon 构建近实时数据湖仓未来展望01背景介绍第一部分是背景介绍,简单介绍之前的典型的实时数仓的架构,以及引入 Apache Paimon 的原因。1.1 当前实时湖仓计算框架以 Flink + Talos + Iceberg 为...

2025-03-04 09:30:16 537

转载 大数据OLAP引擎底层原理

《OLAP引擎底层原理与设计实践》书籍在大数据时代,OLAP引擎作为处理海量数据的关键技术,其复杂性和技术深度要求我们不断学习和探索。20世纪90年代末,OLAP起源于传统数据库,一直未有起色,2006年后经过近5年的发展,产生了一门新的技术——OLAP大数据分析引擎(简称OLAP引擎)。OLAP结合大数据得以蓬勃发展,在大型互联网公司占据了极其重要的地位,诸如Presto、Impala、Drui...

2025-02-25 09:43:14 836

转载 抖音集团离线数仓血缘基础能力的构建与应用

导读本文将从底层视角来描述血缘在离线数仓场景的具体应用。主要内容包括以下几大部分:1.背景介绍2.血缘基础能力介绍3.血缘能力在数据发现场景的应用4.血缘能力在数据保护场景的应用01背景介绍企业数据建设面临两大类问题:第一类问题:聚焦于如何有效识别数据传输链路,特别是在各公司离线数仓规模持续扩大的背景下。用户常遇到以下挑战:首先,针对多业务线场景,需要明确某一 Hive 表中包含哪些业务...

2025-02-23 17:14:30 874

转载 货拉拉Flink CDC实践:稳定性建设与数据入湖新探索

导读本文将分享货拉拉基于 Flink CDC 的建设实践,以及对 CDC 数据入湖的新思考。主要内容包括:1.货拉拉业务背景介绍2.货拉拉为何选择 Flink CDC 作为实时数据同步链路组件3.货拉拉 CDC 生产实践4.CDC 数据入湖和未来展望分享嘉宾|陈政羽 货拉拉 高级大数据开发工程师编辑整理|齐来军内容校对|李瑶出品社区|DataFun01货拉拉业务背景介绍1.货拉拉背景介...

2025-02-21 10:06:08 1194

转载 被 ARCoder 拿捏了!多模畅聊 + 个性定制,超绝

浪尖的小程序 ARCoder 迎来重大升级!如今,它成功接入了豆包、kimi、千问 deepseek 等多款热门大模型,尤其是对 deepseek 的使用体验进行了全面优化,现在用户可以尽情畅聊,无需担忧交流阻碍。ARCoder 的强大不止于此,它还能精准记忆用户习惯,在对话过程中完美记忆上下文,让交流更加自然流畅。同时,用户更能根据自己的喜好定义专属 AI 角色,创建个性化的 AI 智能体,无论...

2025-02-21 10:06:08 946

转载 Paimon x StarRocks 助力喜马拉雅构建实时湖仓

摘要:本文整理自喜马拉雅数仓专家王琛老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。将介绍喜马拉雅直播的业务现状及数据仓库架构的迭代升级,重点分享基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效。我们通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大...

2025-02-18 09:26:12 1060

转载 ​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计

摘要:本文整理自阿里云实时数仓 Hologres 负责人姜伟华老师在 Flink Forward Asia 2024 行业解决方案(二)专场中的分享。主要分为以下三个方面:实时数仓的发展历程从实时数仓到实时湖仓总结01实时数仓的发展历程以一个典型客户案例来回顾实时数仓的发展历程。1.1 第一代实时数仓:Lambda 架构,离线实时分别计算自大数据出现之始,实时数仓采用的就是 Lambda 架构,实...

2025-02-13 10:14:43 1231

转载 4000字!深度解析 DeepSeek 的蒸馏技术

导读昨天,我们详细的介绍了模型蒸馏技术,DeepSeek的蒸馏技术更是这一领域的佼佼者,它不仅攻克了传统蒸馏的瓶颈,还在多模态数据处理等前沿领域取得了突破性进展。本文将深入剖析DeepSeek蒸馏技术的核心原理、创新策略以及未来发展方向,带你一探究竟,领略AI模型优化的奥秘与魅力。1. DeepSeek蒸馏技术概述unsetunset1.1 蒸馏技术定义与原理unsetunset模型蒸馏(Know...

2025-02-13 10:14:43 1234

转载 PyCharm接入DeepSeek实现AI编程

DeepSeek 是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的 AI 模型。DeepSeek-V3 是 DeepSeek 公司推出的最新一代 AI 模型。其前身是 DeepSeek-V2.5,经过持续的优化和升级,V3 版本在性能、速度和成本方面都取得了显著提升。DeepSeek-V3 的发布表明,国产 AI 模型在技术层面已经具备与国际顶尖模型(例如 GPT-4o)竞争的实力。...

2025-02-10 10:03:43 1216

转载 Flink CDC 在阿里云实时计算Flink版的云上实践

摘要:本文整理自阿里云高级开发工程师,Apache Flink Committer 阮航老师在 Flink Forward Asia 2024 生产实践(三)专场中的分享,主要分为以下四个方面:Flink CDC&实时计算FlinkCDC YAML核心功能CDC YAML典型应用场景Demo&未来规划01Flink CDC & 实时计算 Flink1.1...

2025-02-10 10:03:43 1258

转载 Flink 2.0 存算分离状态存储 — ForSt DB

摘要:本文整理自阿里云技术专家,Apache Flink Committer兰兆千老师,在 Flink Forward Asia 2024 核心技术(一)中的分享。主要分为以下几个内容:1. Flink 2.0 存算分离架构介绍2. 全新状态存储内核 — ForSt DB3. 工作进展 & 未来展望Tips:关注「公众号」回复FFA 2024 查看会后资料~01Flink 2.0 存算...

2025-02-08 09:25:22 1236

原创 论大模型的temperature设置的重要性

使用arcoder小程序定义了一个机关枪角色,主要是怼用户。刚开始kimi的temperature=0.3,态度很中性,调整到0.7攻击力十足了!千问是从qwen-plus迁移到qwen-max。目前来看国产大模型都还不错,但是还是推崇DeepSeek r1,最近服务压力太大了,老是提示服务器异常。欢迎使用arcoder体验定义自己的角色。arcoder角色扮演ARCoder一个专于主AR应用,A...

2025-02-07 12:08:52 1333

转载 微财基于Flink构造实时变量池

。摘要:本文整理自微财资深数据开发工程师穆建魁老师在 Flink Forward Asia 2024 行业解决方案(一)专场中的分享。主要分为以下三个部分:微财科技基于 Flink 构建时变量池分享架构选型和开发效率提升策略实时变量池架构与多流关联优化实践01微财科技基于 Flink 构建时变量池分享本次分享的的主题是微财基于 Flink 构造实时变量池。首先,我简单的介绍一下我们的公司。微财科技...

2025-02-02 09:54:28 1346

转载 用友畅捷通在Flink上构建实时数仓、挑战与最佳实践

摘要:本文整理自用友畅捷通数据架构师王龙强老师在 Flink Forward Asia 2024 生产实践专场中的分享,主要分为以下五个方面:业务背景数仓建设当前挑战最佳实践未来展望用友旗下的畅捷通信息技术股份有限公司自 2010 年成立以来,经历了从传统软件服务向 SaaS 转型的历程,并逐步构建了自己的云服务平台。在过去两年中,基于 Apache Flink 技术框架,我们在数据仓库(数仓)建...

2025-01-25 09:17:12 1714

转载 Flink CDC 在货拉拉的落地与实践

作者:陈政羽,目前就职于深圳依时货拉拉科技术有限公司,在公司数据平台组负责湖仓一体平台和实时计算平台相关开发工作,是 Apache Amoro PMC Memeber,ALC ShenZheng Memeber ,也是 Apache Flink 社区贡献者和志愿者,目前在开源社区专注于实时计算方向以及 Amoro 社区海外和国内的运营和开发工作。摘要:今天的文章撰写自陈政羽老师在 Apache A...

2025-01-24 13:05:32 1734

转载 如何定义一个自己的AI角色

浪尖的ARCoder小程序新版本终于上线了,主打一个AI+AR。希望为每一个用户打造一个专属于自己的AI智能体。最近没咋更新是因为一直在审核资质,AI问答,AI绘画等都是需要资质才能开放给用户的哦。最近浪尖的小程序上线了两大功能:1.AI聊天。可以直接使用大模型聊天,也可以定义自己的AI角色,跟自己的角色聊天哦。2.AI智能体。主要是打造一些AI助手和AI Agent,后面会结合AR技术,让每一个...

2025-01-24 13:05:32 1849

转载 湖仓实时化升级 :Uniflow 构建流批一体实时湖仓

摘要:本文整理自阿里云产品经理李昊哲老师在 Flink Forward Asia 2024 流批一体(一)专场中的分享,主要分为以下三个方面:1. 实时湖仓发展趋势洞察2. 基于Flink搭建流批一体实时湖仓3. MaterializedTable升级流批一体湖仓体验在流批一体的专场,我们主要探讨如何在阿里云上实现流批一体的最优解决方案。具体来说,将向大家介绍 Uniflow 的实时化流批...

2025-01-23 11:31:37 1784

转载 Apache Spark在小米的生产实践

导读Apache Spark 是被广泛使用的大数据离线计算引擎。小米基于Spark3.1 建设了新一代一站式数据开发平台的批处理能力,新平台在作业迁移、性能优化、稳定性优化中都遇到了一些问题。本文将分享其中的典型问题以及小米 Spark 团队的解决方案。本次分享围绕以下五点展开:1.Multiple Catalog 落地与应用2.Hive SQL 迁移 Spark SQL3.离线场景下 S...

2025-01-19 22:06:46 1972

转载 一文读懂数据中台架构体系(收藏)

导读:当前,大部分企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷问题。数据中台是国内学者提出的概念,起始于阿里的“大中台、小前台”概念。阿里的中台是从管理的角度出发,...

2025-01-19 09:11:45 3494

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除