自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生大数据

在职大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500+节点大数据集群,100PB+数据,爱好python,爬虫。免费给所有转行大数据小白,大数据初级开发者提供职业规划和学习定制建议,欢迎大家交流

  • 博客(433)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 探索Doris:日志分析的新宠,是否能取代老牌ES?

在大数据时代,日志存储与分析对于企业的运营和决策起着至关重要的作用。Elasticsearch(简称 ES)作为一款广泛应用的开源分布式搜索和分析引擎,长期以来在日志管理领域占据着举足轻重的地位。然而,随着技术的不断发展,新的解决方案层出不穷,其中Apache Doris 凭借其卓越特性,在日志存储与分析领域迅速崛起,引发业界热议:Doris 是否会成为新一代王者,取代传统的 Elasticsearch(ES)?

2025-04-02 22:09:02 474

原创 企业数据治理实践:“七剑” 合璧,释放数据价值

在数字化转型的浪潮中,数据已成为企业的核心资产,其治理水平直接关乎企业的竞争力和可持续发展能力。数据模型治理、元数据治理、数据质量治理、数据标准治理、主数据治理、数据安全治理以及数据服务平台治理,共同构成了企业数据治理的关键体系,如同七把利剑,各司其职又协同作战,助力企业在数据驱动的时代中脱颖而出。本文带大家深入探讨这七个方面在企业数据治理实践中的重要作用、实施方法及应用案例。

2025-04-02 22:03:55 472

原创 在海量数据中精准定位:BloomFilter的工作原理与实战指南

布隆过滤器(Bloom Filter)是1970年由 Burton Horward Bloom 提出的一种非常节省空间的概率型数据结构,运行速度快,占用内存小,但有一定误判率且无法删除元素。它实际上是一个很长的位数组(bitmap)和一系列随机哈希函数组成,主要用于判断一个元素是否在一个集合中。

2025-03-28 20:09:20 1032

原创 Spark实战中的坑,你踩过几个?技术专家深度解析!

在这篇文章中,以大数据从业近十年的工作经验来看,我尽可能收集到一些常见的错误和问题以及我们可以实施的解决方案和优化。

2025-03-25 19:19:29 738

原创 大数据运维实战之YARN任务内存泄露排查实战:从节点掉线到精准定位的完整指南

最近某大数据集群频繁出现节点掉线事故,物理内存监控持续爆红。运维人员发现当节点内存使用率达到95%以上时,机器会进入不可响应状态,最终导致服务中断。这种"内存雪崩"现象往往由单个异常任务引发,如何快速定位问题作业成为当务之急。

2025-03-23 16:56:50 523

原创 Doris 湖仓一体:数据分析新范式

Doris 湖仓一体凭借其强大的功能、先进的架构和核心技术,为企业数据管理提供了高效、智能的解决方案。在大数据时代,它就像一座坚实的桥梁,打通数据湖与数据仓库的壁垒,让数据流转更顺畅,价值释放更充分,助力企业在数字化转型的浪潮中抢占先机!

2025-03-19 21:33:37 857

原创 大数据运维必看:跨数据中心的集群迁移详细步骤与技巧分享

因云平台升级,需要将A机房中的大数据平台迁移到B机房中。AB属于同城市,不同数据中心机房。主要是因为A机房底层物理空间满了,没办法加机器了,但是大数据集群又需要扩容了,所以才搞集群迁移。不然真心不想做的。

2025-03-15 16:12:16 1048

原创 SparkSQL面试到这些内容,你能一次说清楚吗?(上)

今天带各位梳理一下很多SparkSQL在使用中模棱两可得的事情,今天一文带大家全部理清楚。涤生出品,内容很干,不管是在面试还是在实际的工作中,能够理清以下问题,你就是最靓的仔。

2025-03-13 14:31:27 617

原创 分享一个数据开发简历面试99%上岸的流程规划,赶紧收藏!

我们一群在职的小伙伴做的网络大数据学习课程。小伙伴有大数据开发,也有技术专家,架构专家(窃以为更高职级的人不适合做技术教学,比如架构师岗位),所有老师非培训机构讲师。另有大厂在职大佬合作数名,如阿里巴巴大数据之路作者数仓专题系列直播。

2025-03-11 16:27:12 978

原创 1-2月大数据学员Offer榜单:这些求职密码正在被验证!

说起现在的互联网行情,那真是王二小过年一年不如一年了哈。卷学历卷能力,最近几个月涤生大数据带了几十个被裁员的同学,有一线中大厂的,也有小公司,外包的。那是那句话市场行情差的时候在淘汰学历差能力差的人。

2025-03-11 16:05:25 488

原创 数据仓库架构全解析:如何构建高效、有序的数据分层?

1.监控体系:建立全方位数据监控,包括数据质量(准确性、完整性、一致性)监控,通过数据校验规则比对;2.故障应急:制定详细故障应急预案,依据故障影响范围、严重程度分级,不同级别启动相应处理流程,从故障发现、通知责任人到恢复系统正常运行各环节明确时间节点与操作步骤,如数据延迟故障,5 分钟内发现通知,30 分钟内定位修复。2.数据脱敏:对敏感数据,如客户身份证号、银行卡号,在非必要场景进行脱敏处理,采用哈希、替换等方法,保证数据可用性同时保护隐私,如身份证号保留前 6 位和后 4 位,中间用星号代替。

2025-03-07 22:18:37 660

原创 2024届一线互联网大厂校招算法题侧重点:从手撕代码到思维能力考察

今天将为大家详细解读2024年部分一线互联网大厂校招中的核心算法题目趋势和考察重点。这些年来,互联网企业的面试题目在不断变化,但有一些核心考察点始终未变——那就是对基础算法能力和编程思维的深度考察。根据内部同学反馈收集到的第一手信息,我把2024年的校招题目进行了整理和分类,并结合具体的例子来分析每个题型背后的考察意图。希望这些内容能为大家的面试准备提供方向。

2025-03-03 19:25:40 796

原创 大数据八股文高效背诵指南,助你offer拿到手软

请注意:如果你想看完这篇文章之后,此后的八股背诵之路就如同开挂一般,变得轻松+愉快+记忆牢固,那你可以直接把这个页面关掉了。相反,如果你想用短暂的痛苦,换来思维方式的改变,进而让你对八股的记忆更加牢固和准确,那么可以接着往下看!

2025-02-28 13:59:46 634

原创 用户行为分析:漏斗分析模型的实现

所谓的用户行为分析,就是通过对用户在产品(比如APP、网站等)上的行为数据进行收集、处理和分析,来洞察用户的真实需求和特征。这些行为数据包含用户的浏览记录、点击行为、购买、收藏等数据。通过分析这些收集的数据,企业能够更准确地了解用户的行为习惯和购买偏好等,为产品优化和营销策略制定提供有力支持。那么漏斗分心模型是用户行为分析中最重要的模型,漏斗分析是一种常用于产品分析、市场营销和用户行为分析的方法,用来跟踪用户在完成特定目标的过程中,从一个步骤到另一个步骤的流失情况。

2025-02-26 19:42:36 916

原创 24年校招圆满落幕,25年秋招扬帆起航!学长学姐的求职攻略不容错过!

秋招季,每个人经历的过程都是独一无二的。学历和专业背景在其中扮演着关键角色,深刻影响着面试体验和感受。在校招的面试环节中,高学历无疑是一张王牌,它能让你获得更多的面试机会。这份优势不仅为你打开了更多门,也让你在竞争中脱颖而出。

2025-02-25 21:28:29 1140

原创 大数据运维实战:通过自定义Hooks优化Spark Catalyst,提升Spark性能

Apache Spark是大数据处理领域最常用的计算引擎之一。其强大的可扩展性和丰富的API使其在各种场景中得到了广泛应用。除了常见的数据源扩展,Spark SQL的Catalyst引擎也提供了丰富的扩展点,允许用户根据自己的需求定制解析、分析、优化和物理执行策略。本文将深入探讨在实际的生产环境中如何借助Spark Catalyst的拓展功能,实现自定义的 hooks 功能。

2025-02-21 17:28:29 1256

原创 数据治理怎么做,看完这篇你就明白了

在大数据时代,几乎所有企业都看到了数据的价值,快速开始探索数据应用场景和商业模式、建设数据中台,但是如果在大数据拼图中遗忘了数据治理,那么即使做再多的业务和技术投入也是徒劳的,因为很经典的一句话:Garbage in Garbage out,数据质量没有保证。而保证数据质量,数据治理是必须的手段。数据治理这个话题看似阳春白雪高大上,实际上是非常下里巴人接地气,或者说必须要顶天立地才能见实效。

2025-02-17 14:41:13 1010

原创 一文带你吃透大厂高频面试题:连续登陆问题

连续登录问题是数据开发同学SQL面试中考察的重点,主要涉及对日期字段的处理和逻辑判断。连续登录问题的核心在于“日期连续”,一般题目中出现“求XXX连续N天登录”这种字眼时,往往就是一道连续登陆日期的题目。解决这类题目,首先要清楚什么是“连续”?

2025-02-15 23:24:23 699

原创 全网最全Flink网络堆栈探索

Flink 的网络堆栈是构成flink-runtime模块的核心组件之一,也是每个 Flink 作业的核心,它连接来自所有TaskManager的各个子任务。这是Flink待处理的数据必须流经的地方,针对吞吐量和延迟而言,对于 Flink 作业的性能至关重要。与通过 Akka 使用 RPC 的 TaskManager 和JobManager 之间的协调通道相比,TaskManager 之间的网络堆栈依赖于使用 Netty 的低级别 API。

2025-02-10 11:31:15 892

原创 从 0 到 1 构建数仓之DWD层

在企业数字化转型进程中,数据仓库的建设至关重要,而 DWD 层(明细粒度事实层)作为数据仓库的核心支撑层,其搭建质量直接影响企业数据的分析价值与决策效率。本文将结合实际案例与行业经验,详细阐述企业如何从 0 到 1 搭建高效、可靠的 DWD 层。

2025-02-05 16:14:04 758

原创 从0到1构建数仓之ODS层

在互联网金融信贷业务的数字化运营中,离线数仓扮演着数据存储、管理与分析基石的角色。其中,操作数据存储(ODS)层作为离线数仓的首层,负责对源系统数据进行抽取、转换与加载(ETL),是后续数据处理与分析工作的重要基础。本文将深入探讨互联网金融信贷离线数仓ODS层的搭建,重点聚焦于数仓数据采集同步策略中的增量与全量同步方案选择,并结合实践中的代码示例,为对数仓工程师岗位培训提供全面且实用的指导。

2025-01-15 11:37:04 1500

原创 数仓面试必问:缓慢变化维的处理

这样新增的数据要改写历史数据, 这个时候就像业务数据库的数据一样,我们要更新对应的数据,例如部门的编码为888,后来发现编码错误了,需要改写成666, 那么我们在修改好的新数据插入时,维度表中原来的部门编码要改成相应的666,这是第一种类型,做法是就是完全更改,全覆盖。此类解决的就是上述的第三种变化,在原来的维度表中增加新的一列,原先的数据列存放上一版本的历史数据值,当前数据列存放当前版本的数据值。的分析,用不同的字段来保存不同的值,总的来说,这种方法通过是添加字段来保存变化后的数据。

2025-01-04 22:00:04 964

原创 大数据现在行情到底如何?还能入坑吗?让11月份就业数据说话!

5年同学普本科班,总包40w+入职某二线城市中大厂,这个同学外包出身,就想去中大厂自研,用了3个多月求职,期间也拿到了一线不错薪资的offer,但是只想去好的自研,最后心愿得逞,薪资也将近double了,很开心,工作背景差,学历弱的同学其实适合准备好,慢慢碰机会,有时候合适的机会比能力重要,这个同学就是学校有点差。今年涤生到简历面试辅导的同学就业率大概在98%左右,上岸200多个同学,除了几个另类的同学,搞着搞着不搞的放弃的,严重极度摆烂的同学,直接消失联系不上的同学,当然也有一个是我劝退退费补偿的。

2024-12-22 18:55:50 1047

原创 狠人,校招3月份突击拿下一线大厂总包40w+,最后拿到多个校招offer

3个月能干什么?今天的主人翁,是涤生校招上岸最快的同学,从报名学习全职突击到拿到offer,只用了3个多月,也是我见过学习比较猛的同学,后面了也拿到好几个中大厂offer。

2024-12-04 20:18:43 340

原创 金九银十已经过了,还没找到工作,怎么办?

今年的金九银十,行情很一般,社招不温不火。但是十一月就业行情确实不错,有点逐渐回暖的嫌疑,11月截止28日,涤生有23个社招同学拿到offer上岸,出乎意料;

2024-12-03 16:16:14 741

原创 迁移策略:CDH 集群整体平缓迁移的最佳实践

1.通过cm控制台停止源主机的JournalNode服务,然后将编辑目录(参数。

2024-02-29 09:15:00 1393

原创 一个39岁程序员的自白,大龄程序员的出路在哪里?

紧接着上面大哥感慨聊聊,

2024-02-26 14:15:00 2064

原创 涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(下)

计算链路较短,但如果发生Flink任务重启的情况,需要离线和实时两条线一起修复数据:离线补一次T-1数据到hbase + 离线初始化hbase中当日新用户数据为0 + Flink重启回拉消息位点到T日00:00,共计三步。非T日新增的老用户的数据在ODPS表里已存在,odps2hbase时会覆盖掉hbase表中现有数据,都更新为ODPS表数据,这样在hbase结果表里,T日之前的老用户累计数据都是正确的;(如上,27号的数据既要参与27日当日的实时计算,也要参与28号的实时计算)。

2024-02-21 10:00:00 2210

原创 23年秋招结束,同学们陆陆续续拿到心仪的offer!24年秋招出发!

算法(笔试),SQL(笔试和手撕),大数据组件的原理,数仓的八股要结合项目说,自己写的项目要非常熟悉,wiki里的必背就是必背,经常会问,可以先过一遍,然后整理适合自己表达方式的话术去记忆。投递简历可以早点投,从提前批就开始(七月底),因为有的正式批池子都已经满了,认真对待模拟面试,有助于锻炼表达能力,真正面试就是放平心态就好了。录屏、录音等。这样方便自我复盘,不懂的点也可以找老师帮忙复盘一下,在面试中不断完善自己的知识架构、项目架构体系以及其他方面的问题。最后,24届的秋招即将告一段落!

2024-02-18 14:15:00 2000 1

原创 深入理解Spark BlockManager:定义、原理与实践

Spark是一个开源的大数据处理框架,其主要特点是高性能、易用性以及可扩展性。在Spark中,BlockManager是其核心组件之一,

2024-02-08 07:45:00 2345

原创 涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(上)

当一个用户在T日实时上传了自己的跑步记录,Flink节点1会计算出其 [当日0点起至此刻] 的跑步累计数据data1,Flink节点2会根据该用户id取hbase维表里查询其 [历史~T-1日] 的累计数据 data2 (hbase表里数据由odps每日更新,即T-1日的存量累计汇总数据),将data1和data2二者汇总,就可得到 用户历史至此时刻的汇总数据;在凌晨时分,ODPS计算T-1日数据期间,如果发生了对T-1日的数据查询,则无法获取到期望的T-1日数据,会继续使用T-2日的数据。

2024-02-05 12:08:37 1728

原创 大数据实战:Ambari开发手册之OpenTSDB快速集成技巧

用于描述这个服务,服务的组件和管理脚本用于执行命令。一个组件的服务可以是MASTER,SLAVE或CLIENT类别。这个<category>告诉Ambari默认命令应该用于管理和监控组件。为每个组件指定<commandScript >执行命令时使用。有一个默认命令定义组件必须支持。

2024-02-01 16:30:00 1129

原创 解析线上HBase集群CPU飙高的原因与解决方案

jstack是Java开发工具包(JDK)中提供的一个命令行工具,用于生成Java虚拟机(JVM)中所有线程的堆栈跟踪信息。使用jstack命令可以获取以下信息:所有线程的堆栈跟踪:jstack命令会输出JVM中所有线程的堆栈跟踪信息,包括线程ID、状态、执行方法和行号等。这些信息可以用于分析线程的执行路径和可能的问题。死锁检测:jstack命令可以检测并输出JVM中的死锁情况。它会显示死锁的线程以及导致死锁的资源。

2024-01-29 17:00:00 2252

原创 Flink:快速掌握批处理数据源的创建方法

本文收集了实现领域的反馈,因为javadoc无法涵盖高性能和可维护源的所有实现细节。希望你喜欢这篇文章,并且它给了你为Flink项目贡献一个新连接器的愿望!Flink:快速掌握批处理数据源的创建方法。

2024-01-25 07:15:00 1160

原创 开发实战角度:distinct实现原理及具体优化总结

Distinct是一种常用的操作,在所有数据库的SQl语言中都是一个非常重要的操作,。基本原理是将输入的数据集按照指定的列进行分组,在每个分组内部去除重复的值,最后将每个分组的唯一值合并成一个结果集。最近一位好学的小伙伴在学习的过程中,学习到count distinct 的这块内容的时候,,今天就来给大家总结一下。group by的操作适合我们的聚合时distinct息息相关的,所以在我们总结distinct 之前 ,我们不得不先来看一下group by 操作的具体实现原理。

2024-01-22 09:40:56 1680

原创 高级开发必备技能:如何建设一个规范化数仓?

本章节为什么较多从面试角度体系话介绍数仓规范呢,主要是很多同学给宇哥反馈在求职面试的时候,在问到数仓规范相关的面试题的时候,发现直接没办法体系化专业化的介绍出来,只能零散的介绍出一些片段,最后在面试当中失利。在规范制定阶段,往往都是由有一位数仓团队leader或架构师,或者由不同部分的核心开发人员合作(当然这些人员一般都是具备成熟数仓建设经验的,都是对数仓规范有相当认识的同学),以充分考虑公司实际情况,并参考行业标准或已有的规范来制定规范。这有助于消除数据孤岛,提高协作和对数据的信任。

2024-01-17 08:45:00 1042

原创 有趣的事,讲给有趣的人听

后来找到我,咨询了很久,问题很多,各种谨小慎微,脑洞的问题,起初我是拒绝的(主要那段时间我们带的同学也多,他事也多哈),后来陆续找了我几回,我被他打动了,于是大家一起开始了学习之路。但是遗憾的是并不是两情相悦,其实在爱情里,男人都是笨拙不堪的,总喜欢吹冲锋号,不懂得大迂回大包抄,往往就是直接把妹子吓走,然后自己原地傻B了,他亦是如此。两年多的涤生大数据,认识了形形色色的小伙伴,陆续沟通下来6000多人,彼时他们来自全国的各个角落,不同的教育背景,不同的性格,不同的工作环境,不同的视野见识。

2024-01-14 16:15:00 1030

原创 深入比较:报表与BI商业智能的异同,清晰职位定位,请不要再把二者混为一谈!

随着计算机性能的提高和数据库技术的成熟,和对数据价值价值更深层次的探索的需求,虽然报表工具在特定用途下非常有用,但为了弥补报表工具的局限性,并满足更广泛的数据分需求。:解决业务和IT之间的“报表需求拉扯”,同时帮业务解决“我有一堆业务数据,我知道这数据有用,可我不知道怎么用,但BI可以帮助我去生成一些展示及指标体系,给到我分析数据的启发”的问题,偏向“数据需求变化多且快,想带着问题去探索分析数据的阶段,数据交互性较高,适合从信息化往数字化转型过渡的企业”。这有助于用户更好地理解数据的变化和趋势。

2024-01-11 09:55:20 1091

原创 初学者必备Java工厂模式:简化对象创建过程,提升代码可维护性与扩展性

简单工厂模式有唯一的工厂类,工厂类的创建方法根据传入的参数做if-else条件判断,决定最终创建什么样的产品对象。如图所示,每一个产品类都对应着一个工厂类,当产品数量很多的时候,工厂类的数量也会越来越多,搞得系统非常复杂。要想解决掉if-else的问题,我们可以为每一个牙刷子类创建对应的工厂子类,这些工厂子类分别实现抽象的工厂接口。抽象工厂模式把产品子类进行分组,同组中的不同产品由同一个工厂子类的不同方法负责创建,从而减少了工厂子类的数量。这背后是面向对象的多态特性。

2024-01-06 17:45:00 1066

原创 新能源趋势下一个简单的数仓项目,助力理解数仓模型

目前国家政策的主导之下,新能源相关项目和公司的竞争愈演愈烈,很多新能源公司开始大规模的布局数仓,来从自己的产生的大量的数据中提取价值,进而在新能源市场有自己的一席之地。这里假设我们的数据源是一个新能源公司的数据库,包含以下几张表:electricity_meter, solar_panel, weather_data。这些表包含了电表读数、太阳能板数据和天气数据等信息。接下来,我们以Scala为开发语言,Spark为计算引擎,演示一个完整的项目代码,非常容易理解一个业务的数仓开发建设。

2024-01-03 07:45:00 594

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

企业数据安全中的数据脱敏 阿里巴巴

2021-09-10

腾讯大数据安全体系架构与介绍.pdf

腾讯大数据安全体系介绍

2021-09-10

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除