自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生大数据

在职大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500+节点大数据集群,100PB+数据,爱好python,爬虫。免费给所有转行大数据小白,大数据初级开发者提供职业规划和学习定制建议,欢迎大家交流

  • 博客(497)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 简历空窗期被追问。。。

“对不起,我们看到您的简历上有一段近一年的空窗期,可以解释一下吗?”面试官话音落下,你感到手心微微出汗。心中瞬间闪过无数念头:该怎么回答?实话实说会被歧视吗?他们会觉得我不够稳定吗

2025-11-16 20:24:09 928

原创 上班时候手机别瞎连公司WIFI,不然。。。

实现网络数据监控的东西有很多,一般办公电脑都有安装“安全”软件,知道在上面不能瞎搞,但是手机呢?手机未安装任何插件,他会安全吗?带着这个疑问,开始今天的技术分享。

2025-11-16 20:09:06 1006

原创 SQL面试必杀技大揭秘!连续数字、字母、日期序列轻松搞定!

在SQL面试中,生成连续的数字、日期或字母序列是高频考点,常用于解决复杂的时间统计、数据补全等问题。下面,将分别介绍生成数字序列、生成字母序列和最常见的生成日期序列的常见方法。

2025-11-16 11:51:30 544

原创 “金九银十”成色如何?一组大数据就业数据带你感受行情冷暖?

金九银十这个说法,其实针对社招已经不复存在,没有明显的就业强势了,涤生每个月社招上岸的同学都在十几个人,每个月都有好几个人去中大厂。实际最近几年来看9月也没有明显异常猛增的。其实对于想去中大厂的同学反而每年11月是一个很好的窗口期。对于在职的同学来说,如果想提升自己,可以随时在职准备从从容容,带薪学习哈不要太香哈。准备个差不多就可以投递哈,机会随时都有。尤其大厂的机会每个月都有很多哈。现在的大环境,建议未雨绸缪,不要等着突然被裁了,然后手忙脚乱,连滚带爬哈

2025-11-05 21:27:22 338

原创 90%的Spark开发者没搞懂的Stage划分细节?逐行拆解,从源码中找答案

Stage的划分过程中,会涉及到宽依赖和窄依赖的概念,宽依赖是Stage的分界线,连续的窄依赖都属于同一Stage。

2025-11-05 21:22:28 806

原创 日均亿级数据的实时分析:Doris如何接过Spark的接力棒?

过去十年,若要在大数据技术圈评选 “现象级顶流”,Apache Spark 必然是绕不开的存在。它曾以 “颠覆者” 姿态打破 Hadoop MapReduce 的桎梏,成为企业搭建数据体系的 “标配引擎”—— 从 TB 级离线数仓的批处理,到日均亿级数据的 ETL 清洗,再到早期机器学习模型的训练,Spark 几乎承包了大数据领域的半壁江山。

2025-11-05 21:15:15 660 1

原创 八股别硬背,面试这样回答必加分!面试官抢着要

校招技术面最怕啥?被问得哑口无言!别慌,校招整理的 “高频题+避坑指南” 来了,全是面试官最爱考的点,当然主要是wiki的上的哈,但是我也有自己的回答思路和背题思路(大家也可以参考wiki辰哥录制的背题指南哈)。今天很荣幸有机会给大家分享下我的校招总结和背题思路上周三刚刚面完京东二面,以下问题是面试官根据我的简历来提问的技术问题,供大家参考。另外的关于项目+SQL+算法+开放性问题会放到其他文章中分享。

2025-11-04 22:44:44 475

原创 Flink 流表二象性是什么神仙操作?用SQL处理实时数据原来这么简单

了解Flink SQL大规模应用的奥秘之前,我们先谈谈SQL的流批一体的概念。关于流与批的统一一直是业界非常火热的一个话题,Flink SQL 的流与批统一总结起来就一句话:One Query, One Result。在很多场景,我们既需要批处理,又需要流处理。

2025-11-04 22:42:19 699

原创 用雷氏表达法,带你看看大数据的就业行情?

最近9月忙着校招,也忙着秋招,天天diss人,每天忙的五脊六兽的,diss人口若悬河滔滔不绝。今年的校招整体行情相比去年不尽人意,去年整体校招还是比较容易的,而且今年校招流程热度整体滞后去年,估计10月份会有一波小高峰,没有offer的小伙伴好好抓住哈。虽然截止今天涤生有40+秋招同学拿到一线中大厂offer(开奖字节,美团,京东,百度,阿里系如淘天,蚂蚁,滴滴,小红书,b站,腾讯,网易,虾皮,吉利,科大讯飞等),但是平均每个同学拿到的offer个数要少于去年。      社招行情是王小二过年,整体机会

2025-10-23 21:59:01 962

原创 还在写3个GROUP BY查询?GROUPING SETS一键合并表扫描!效率提升300%!

在日常数据分析工作中,我们经常需要对同一份数据从多个不同维度进行聚合分析。传统方法是编写多个独立的 GROUP BY 查询,然后将结果合并,这种方式既低效又冗长。本文将深入讲解 SQL 中的 GROUPING SETS 功能,它能够优雅地解决多维度聚合问题,大幅提高查询效率和代码可维护性。

2025-10-23 21:54:59 940

原创 算法题卡壳?项目被怼?开放性问题?校招面试救场指南来了!

校招面试其中一环,往往可能死在“手撕算法或者SQL”和“项目拷打”上!别慌,今天这篇教你:算法题3分钟破题、项目被怼如何反击,还有职业规划等开放性问题的 “万能公式”。以下题目源于我的部分面试经历,关于SQL和算法题,大家还是计划性多练练,分类掌握好,面试时能写出来比任何技巧都会有效拿分。当然写不出来时也需要一些技巧博取通关分数!

2025-10-23 21:48:18 748

原创 你的SQL在Spark内部是如何 “跑” 起来的?一段SQL带你拆解Spark内部执行全流程

当您执行一条 Spark SQL 查询时,是否思考过它背后究竟经历了怎样的旅程?看似简单的查询请求,实则蕴藏着分布式计算的精妙魔法——从语法解析到逻辑优化,从执行计划到分布式调度,每一个环节都如同精心编排的交响乐章,最终奏响高效计算的最强音。让我们一同揭开 Spark SQL 的神秘面纱,探索这条从 SQL 语句到查询结果的传奇之路。

2025-10-23 21:42:07 927

原创 大厂背调:为什么 32% 的人因背调被砍Offer

“终于拿到字节Offer了!” 兴奋之余,HR发来一封《背景调查授权书》,前一秒还在庆祝的你突然手心冒汗:“前司离职证明日期和简历差了一个月怎么办?”“工资多报了5%会被查出来吗?”“前领导和我有矛盾,背调会不会被故意差评?”这不是个例。数据显示,32%的互联网人曾因背调问题遭遇Offer取消或薪资重谈,其中不乏工作10年以上的资深从业者。背调,现在在求职中越来越重要,越来越普及。求职者有了一定资历、加入大的平台、应聘重要的岗位,大概率会面临背调。多求职者对于背调没有概念和经验,会在一些常规问题、客观问题上

2025-10-23 21:39:20 1281

原创 涤生大数据4周年了,不忘初心深耕大数据,专注让我们走的更远!

4年,不算短也不算长,有同学从大一开始关注涤生跟着学习到毕业上岸。有人从小白转行到现在大数据架构师;也有人从观望还是停留在观望,也有人一直在守候。1.4年的蜕变与沉淀    4年,涤生大数据微信公众号更新了394篇大数据相关的文章;4年,涤生发布了299个大数据相关技术视频;4年,涤生的课程更新到了第3版;4年,涤生哥接待服务了10000+小伙伴的免费咨询并且给出建议;4年,涤生从1000个粉丝,到现在全网15w+粉丝;4年,涤生辅导上岸700+大数据学员,200+同学入职中大厂。

2025-10-20 23:31:26 717

原创 从滴滴一面被怼崩溃到拿下4个offer,做对了什么

📅 我的秋招时间轴:从崩溃到上岸的90天;8月1日 滴滴一面挂掉(数仓分层问题答成一团乱麻);8月12日 OPPO一面通过(终于搞懂Zookeeper脑裂问题);.......9月5日 拿到第一份 offer 虾皮,然后这一周陆续到了3个OC意向!其他还在陆续面试中。

2025-10-20 23:26:43 908

原创 从MR迁移到Spark3:数据倾斜与膨胀问题的实战优化

最近在进行大规模数据任务从MapReduce向Spark3迁移的工作,遇到了一个典型的数据倾斜案例。本文将分享这个案例的具体情况、问题分析思路以及最终的解决方案,为类似场景的优化提供参考。

2025-09-24 23:37:36 1025

原创 从Java到数据架构:我身边3个同事的转岗历程与血泪经验

5年前的某个深夜,我在电商公司调试Spring Cloud熔断机制时,隔壁老王指着屏幕上的用户行为漏斗图说:"上周改的推荐算法让转化率提升了12%。"那一刻我突然意识到,自己每天CRUD的订单数据,竟能变成撬动业务增长的杠杆。2017我们团队5个Java开发,年底工位上开始出现微妙变化:有人屏幕从《Spring源码》换成了《Hadoop权威指南》,连最沉迷分布式事务的老王,深夜IDE界面都变成了Hive SQL窗口。

2025-09-24 23:24:51 1008

原创 Apache Doris性能优化全解析:慢查询定位与引擎深度调优

在海量数据与复杂查询场景下,Apache Doris 的性能有时候并不能达到预期,这时候就需要通过系统性调优匹配业务需求。本文将梳理从问题定位到引擎优化的全流程方法,帮助开发者精准挖掘系统性能潜能

2025-09-24 23:15:04 1245

原创 21世纪了,你还不懂Flink中的触发器(trigger)和驱逐器(evictor)?

在Flink中,使用event-time模式时,默认提供的window有TumblingEventTimeWindows,SlidingEventTimeWindows,EventTimeSessionWindow等,其中这些是属于window operator中的一部分,称作 window assigner。window operator包含四个组件,除了 window assigner外,还包括 trigger、evictor、window process。

2025-09-14 21:27:59 765

原创 月薪 10K 到 50K:数仓工程师的 3 条发展路线与核心能力培养指南!

在数字化浪潮席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。数据仓库作为企业数据资产的 “中央枢纽”,承担着整合分散数据、支撑业务决策的关键使命。随着大数据技术的飞速演进,Hadoop、Spark、Flink 等技术栈的广泛应用,数据仓库已从传统的关系型数据库架构迈向分布式、实时化的全新阶段。

2025-09-07 20:38:34 888

原创 如何短时间内精准定位指标异动根源

凌晨2点,刺耳的手机警报划破寂静:"核心GMV指标异常下跌23%"。 你从床上弹起,咖啡杯在颤抖的手中倾斜,倒计时30分钟开始——这不是电影情节,而是数据工程师的日常战备状态。作为数据仓库开发者,我们比任何人都清楚:指标异动本质是数据管道的伤口。业务部门看到的是仪表盘上的红色箭头,而我们追踪的是从数据源到报表层之间某处数据的问题。什么是指标异动?

2025-09-07 20:32:21 814

原创 如何突破数据传输瓶颈?且看Doris Arrow Flight SQL 的技术实践!

在大数据分析场景中,数据传输效率往往成为性能瓶颈的 “最后一公里”。传统基于 MySQL 协议或 JDBC/ODBC 的数据传输方式,因行列格式转换、序列化 / 反序列化开销,难以满足大规模数据高速读取需求。自 Doris 2.1 版本起,基于 Arrow Flight SQL 协议的高速数据链路正式上线,在部分场景下性能较传统方案提升百倍,为实时分析、批量数据导出等场景提供了全新技术选择。

2025-09-07 20:27:30 963

原创 一文带你吃透大厂高频面试题:同时在线问题

相信大家对同时在线问题一定不会陌生,有很多公司都有类似的业务场景:游戏业务:在一些热门的网络游戏中,往往需要统计最大同时在线玩家人数,以此来打广告对游戏进行宣传,或者对游戏热度进行分析。电商业务:比如阿里,京东,拼多多,经常会搞一些活动大促,例如"双11","618"等等,这个时候往往需要统计平台的最大在线人数。直播平台:像是抖音、快手等拥有直播业务的公司,会出现统计直播间最大在线观众人数的场景。在线教育:一些在线教育平台,例如腾讯课堂等等,会去统计最大在线学生人数。线上打车:像是滴滴、

2025-09-07 20:25:14 487

原创 小白培训是不是只能去外包?看看7月大数据就业数据,上岸中大厂的同学都有一个特质!

 有些同学问我是不是小白同学培训只能去外包?工作几年的同学问我学习完能不能去大厂?针对这个问题,一般我都会甩出下面这张图,根据涤生4年的大数据培训辅导经验来看,能不能拿到高薪一般由如下四个因素综合决定的。如果你能占到2个以上基本中大厂问题不大的,如果有一个可以冲击中大厂的,很有搞头的。

2025-09-07 20:23:07 688

原创 不再踩坑!Spark on YARN 资源本地化:原理、配置与生产环境最佳实践!

我们知道Spark on YARN模式下,不需要在YARN集群上的每一个NodeManager上都部署Spark及其他依赖文件,只需要在Spark作业提交的客户端所在的物理机上有一套完整的Spark环境即可,但是Spark在运行的时候是需要这些依赖文件的,那么Spark on YARN究竟是怎么做到的呢?

2025-09-07 20:20:47 1033

原创 细说数仓中不同类型的维度

本周给一位同学复盘,被问到了有哪些核心的维度,贷款的五级分类是哪些?结结巴巴犹犹豫豫,说出来及格比较普遍的维度,贷款得五级分类直接不知道,这个就是平时不关注业务得问题,所以大家在平时复习时,一定要多关注业务上得核心点。当然,这些问题不仅考察了对于业务的理解,还考察了维度在实际工作中的应用。在数据仓库的宏伟建筑中,维度建模如同支撑其稳固性的钢筋骨架。而维度表正是这座大厦中定义业务过程语境、提供灵活分析视角的关键构件。理解维度的不同类型及其设计精髓,是构建高效、易用、面向分析数仓的核心能力。今天就来详解一下各种

2025-08-20 23:26:15 747

原创 今年的秋招好起来了 ?美团狂招6000+,字节5000+

到目前 25年的秋招已经进行了半个多月的时间,各大厂的正式批也基本上都已经开始了,像美团、字节、快手、滴滴等大厂都已经开启了招聘。从今年各个大厂秋招的招聘来看,情况看着是要比去年好了首先是:美团 2026 校招 6000 人,技术岗扩招(要说还得是团子,依然位居校招的大户榜首,待遇上看也是可以,据说去年也是给校招生提了一波薪资)。字节:招 5000+ 人!研发需求增加 23%、产品 Offer 翻倍。大量后端、算法、前端、客户端招聘需求,字节去年校招大数据开发岗薪资普遍在30k以上,要说还得是宇

2025-08-20 23:23:47 838

原创 数仓分层架构设计全解析:从理论到实践的深度思考

在数字化浪潮席卷全球的今天,企业每天都在产生和积累海量的数据。如何高效地管理和利用这些数据,成为了企业实现数据驱动决策的关键。数据仓库作为企业数据存储、处理和分析的核心平台,其架构设计的优劣直接影响着数据处理的效率和决策支持的质量。而数仓分层架构设计,作为提升数据仓库效能的重要手段,正受到越来越多企业和数仓工程师的关注和重视。

2025-08-14 22:42:04 1236

原创 从数仓建设到标签开发:我的大厂面试复盘实录

"最近面试了几家互联网大厂的大数据的岗位,经历了从数据仓库建设到标签开发,再到性能优化的全方位'拷问'。今天就把这些实战经验整理出来,希望能帮到正在准备面试或对数据开发感兴趣的朋友们!"先把面试题放在前面,以下问题和答案都是根据个人经验和技能总结整理的,我通过了该公司的面试,顺利拿到了offer,回答基本没什么问题,供大家参考。

2025-08-04 22:14:39 936

原创 揭秘 Doris 高并发点查询:原理与优化

Apache Doris作为一个性能卓越的国产OLAP的数据库,其在高并发点查询场景下,展现出了强大的优势,其QPS能达到数万+的地步(在资源不是瓶颈的情况下,甚至能达到6w+)。今天,就让我们深入探究 Doris 是如何实现高并发点查询的。

2025-08-03 20:08:35 751

原创 关于SQL的开窗函数,你踩过哪些坑?

简单的 count() over() 竟然有大大的坑?

2025-08-03 18:05:44 1009

原创 行情越来越差,大厂offer却越来越多?且看6月大数据就业offer数据!

6月整体就业人数不算太多,但是整体就业薪资越来越高,小伙伴拿到的offer整体还不错。因为行情差,涤生的同学进阶的学员的比例也越来越高,目前涤生的社招同学65%+是企业在职进阶的,企业工作过的,纯小白学员大概只有35%不到,越来越多的工作过的同学加入一起学习交流,进阶的同学整体的薪资涨幅还是比较大的。很多条件差的同学,我基本能劝退的劝退了,转行那句话,不仅要看短期收益也要看长期收益。每个找我咨询的同学,我给的每句话都是认真负责的(虽然是咨询是免费的,但是建议是客观的),基本我不建议转行的同学,我甚至不建议大

2025-08-03 17:39:36 1139

原创 从焦虑到上岸:我的二三线城市数据开发求职之路

作为一名在边陲二线省会城市深耕数据领域的从业者,我深知本地求职的痛点:机会少、竞争隐蔽、对 “落地能力” 的要求远高于纯技术深度。今天想通过我的经历,分享在求职寒冬中如何凭借精准准备和外部助力成功上岸,也特别感谢涤生大数据在关键时刻的指导与支持。

2025-07-26 16:05:43 950

原创 从8h到40min的极致并行优化:Spark小数据集UDTF处理的深度实践与原理剖析

在大数据领域,Spark以其卓越的并行处理能力著称。但面对小数据集的极致并行需求时,默认优化策略往往成为瓶颈。本文将深入剖析如何通过精准控制分区策略,将仅170条数据的表拆分成170个独立Task并行执行,实现100%的并行度,并详细解释背后的分布式计算原理。

2025-07-23 21:55:57 1185 2

原创 Doris 物化视图:原理、使用及常见问题处理

在大数据分析领域,数据量的快速增长和复杂查询的频繁出现,对查询性能提出了严峻挑战。Doris 的物化视图(Materialized View)应运而生,成为提升查询效率的有力工具。简单来说,物化视图是将预先计算(根据定义好的 SELECT 语句)的数据集,存储在 Doris 中的一个特殊的表。与普通视图不同,普通视图仅包含计算逻辑,本身不存储数据,而物化视图既包含计算逻辑也包含数据实体。物化视图根据 SQL 定义计算并存储数据,并根据特定策略进行周期性或实时性更新。它可以直接被查询,也能将查询透明改写,

2025-07-17 21:09:28 1147

原创 支付宝智能助理用户会话实时统计:Flink定时器与状态管理实战解析

业务背景:支付宝智能助理上线后,用户只需从支付宝首页轻松下拉即可体验,因此得到了大量用户的使用和反馈。业务需求:现在业务方想统计每个用户在智能助理近30min、近1h、近6h的会话数和会话时长,并随着时间推移,每1分钟更新一次。额外诉求:如果用户在30min、1h、6h后没有行为数据,则将会话数和会话时长清零。

2025-07-17 21:05:51 506

原创 主动学习+高效输出:3个月校招上岸大数据开发

本硕末流211天坑专业。我本科和代码完全无关的天坑,研究生做的ai+天坑,就写过一点python。几乎零基础,0开发经验。六月中找到ds,九月初开始投递,九月下旬拿到第一个大厂offer。中间学校的事情还耽误了一周多(返修论文)。投递总数60,中大厂面试14场,只有一个没通过,通过率90+%。(我拒了一堆二面,拿了满意的直接开摆,最后是3个中大厂offer,都是sp)。目前已提前实习五周,氛围非常好,landing看起来也肯定丝滑,没问题。mt说过好多次,觉得我积极,然后对我完全放心,肯定没啥问

2025-07-10 23:38:40 1208

原创 25年校招即将开始,暑期实习同学应如何备战?

距离25年秋招开始不到一个月的时间了,有很多同学现在正在暑期实习,因为每个人去的部门的业务不同,大家可能会有一些焦虑,比如部门没有转正hc、每天都在干杂活对自己没有成长、学习不到知识等。首先大家要知道实习的目的,最重要的目标一定是留用!留用!留用!其次才是提升个人能力、丰富技能!可能有些同学认为这想法太直接了,然而,如果你真正参与过秋招,就会深刻体会到它的残酷竞争。在这种环境下,抓住提前拿到offer保底测试最重要的。今天以去年我们去年暑期实习同学的经历来跟大家聊聊如何顺利拿到留用offer!

2025-07-10 23:35:59 1437

原创 Apache Spark 4.0:将大数据分析提升到新的水平

Apache Spark 4.0 带来了 PySpark 画图、多态 UDTF、改进的 SQL 脚本和 Python API 更新,以增强实时分析和可用性。 Apache Spark 4.0 于 2025 年发布,它通过增强性能、可访问性和开发者生产力的创新,重新定义了大数据处理。在 Databricks、Apple 和 NVIDIA 等机构的 400 多位开发者的贡献下,Spark 4.0 解决了数千个 JIRA 问题,并引入了诸多变革性功能:PySpark 原生画图、Python 数据源 API、多态用

2025-07-06 21:09:25 1503

原创 大数据开发实战:如何做企业级的数据服务产品

数据服务通常以解决方案的形式进行组织,面向一个应用场景的所有数据需求或数据内容可以通过一个解决方案进行封装,统一对外服务。一个数据需求或数据接口以一个数据服务实例的形式存在于解决方案之下。下游消费方可以通过统一API进行数据消费,通过传入解决方案code+数据服务code来获取指定的数据内容及数据服务能力进行消费。

2025-07-02 23:07:34 745

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

企业数据安全中的数据脱敏 阿里巴巴

2021-09-10

腾讯大数据安全体系架构与介绍.pdf

腾讯大数据安全体系介绍

2021-09-10

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除