- 博客(543)
- 资源 (14)
- 问答 (1)
- 收藏
- 关注

原创 Spark大数据开发与应用案例(视频教学版)(十)--第五章
本章将全面解析RDD的Shuffle机制,从Shuffle的概念与历史演进出发,深入探讨其验证及复用性。随后,我们将详细剖析HashShuffleManager与SortShuffleManager的工作原理及其优化策略,为读者揭示Spark分布式计算的核心奥秘。
2025-03-24 15:13:07
611

原创 Spark大数据开发与应用案例(视频教学版)(九)--第四章下
本章深入探索Spark的核心抽象——RDD(Resilient Distributed Dataset,弹性分布式数据集)。从RDD的基本概念出发,逐步解析其血缘关系、依赖类型及多种算子(包括Transformation、Action及特殊算子)。同时,通过模拟自定义RDD与任务执行原理图解,让读者掌握Spark的实战技巧。
2025-03-14 16:18:59
728

原创 Spark大数据开发与应用案例(视频教学版)(八)--第四章上
本章深入探索Spark的核心抽象——RDD(弹性分布式数据集)。从RDD的基本概念出发,逐步解析其血缘关系、依赖类型及多种算子(包括Transformation、Action及特殊算子)。同时,通过模拟自定义RDD与任务执行原理图解,让读者掌握Spark的实战技巧。
2025-02-22 20:46:43
901

原创 Spark大数据开发与应用案例(视频教学版)(七)--第三章下
本章将引领您探索Scala基础编程,随后指导您如何在Spark中创建项目,并深入编写Spark程序。通过一系列学习,您将掌握大数据处理的关键技能。最后,本章小结将帮助您巩固所学,为后续学习打下坚实基础。本章主要知识点:Scala基础编程Spark创建项目Spark程序编写
2025-01-31 10:07:54
958

原创 Spark大数据开发与应用案例(视频教学版)(六)--第三章上
本章将引领您探索Scala基础编程,随后指导您如何在Spark中创建项目,并深入编写Spark程序。通过一系列学习,您将掌握大数据处理的关键技能。最后,本章小结将帮助您巩固所学,为后续学习打下坚实基础。
2025-01-16 13:58:45
1028

原创 Spark大数据开发与应用案例(视频教学版)(五)--第二章下
本章将讲解Spark的概念及其特点、运行模式、执行流程以及一些常用的专有名词,帮助读者对Spark形成一个大致的印象,为后续的学习打下基础。
2025-01-11 21:20:19
746

原创 Spark大数据开发与应用案例(视频教学版)(四)--第二章上
本章主要知识点:1)VM虚拟机安装2)Ubuntu 22.04系统安装3)Ubuntu 22.04网络配置4)Ubuntu 22.04环境配置5)zookeeper 安装6)Hadoop 安装7)Spark安装8)集群和代码下载
2025-01-04 11:38:59
1391
1

原创 Spark大数据开发与应用案例(视频教学版)(三)--第一章下
本章主要知识点:1)Spark概念及其特点2)Spark技术生态系统3)Spark运行模式4)Spark执行流程5)Spark专有名词
2025-01-01 11:04:26
1240
1

原创 Spark大数据开发与应用案例(视频教学版)(二)--第一章上
1)Spark概念及其特点2)Spark技术生态系统3)Spark运行模式4)Spark执行流程5)Spark专有名词
2024-12-29 21:53:12
1093
1

原创 我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架
致 青 春 赶在儿子1岁生日之际,赶在我30岁告别之际,我撰写《Hadoop+Spark生态系统操作与实战指南》一书,作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一页,我借【此书】记录下我的青春,我借【清华大学出版社】将我青春永远留在【清华大学】。 我的新书《Hadoop+Spark生态系统操作与实战指南》,清华大学出版社,已经在京东、天猫、当当
2017-08-07 20:22:59
8181
11
原创 DeepSeek的介绍
综上所述,DeepSeek是一家专注于开发先进大语言模型和相关技术的创新型科技公司。其产品在多项测试中表现出色,且训练成本远低于行业平均水平。然而,DeepSeek也面临着多元化功能不足和交互体验差异等挑战。未来,随着技术的不断进步和市场的深入拓展,DeepSeek有望在人工智能领域取得更加显著的成就。
2025-01-31 10:33:48
640
原创 程序员的日常生活
在数字时代,程序员不仅是技术的塑造者,更是连接现实与虚拟世界的桥梁。他们的生活,如同一首由代码、梦想与日常琐事交织而成的交响曲,既充满了挑战与激情,也不乏平凡与温馨。本文将深入探索程序员的生活,从工作、学习、休闲到人际关系,全方位展现这一群体的独特风貌。
2025-01-11 21:30:47
831
原创 Ubuntu 20.04安装gitlab
一、Ubuntu系统平台查看二、Ubuntu系统软件源更新三、Ubuntu系统安装依赖四、Ubuntu系统下载安装包五、Ubuntu系统安装gitlab六、Ubuntu系统系统配置七、gitlab重新启动系统ERROR01ERROR02
2023-05-09 09:51:11
319
原创 数据团队总监生存指南
新晋总监生存指南开篇之总监二三事新晋总监生存指南二——建立指标新晋总监生存指南三——OKR实践新晋总监生存指南四——项目执行指南新晋总监生存指南五——人才运营机制新晋总监生存指南终章——构建团队信息通道...
2022-08-22 10:13:38
334
原创 案例--检验表达式中的括号是否成对出现
/** * 检验表达式中的括号是否成对出现 */ def isMatch(rules: String): Boolean = { // 括号中文转英文字符 val str = rules.replaceAll("(", "(").replaceAll(")", ")") // 设置栈存储容器 val brackets = new util.HashMap[Character, Character] // key值为:')' ,value值...
2022-01-17 17:33:43
446
原创 SQL行转列、列转行
目录一、整理测试数据SQL行转列、列转行这个主题还是比较常见的,行转列主要适用于对数据作聚合统计,如统计某类目的商品在某个时间区间的销售情况。列转行问题同样也很常见。一、整理测试数据create table wyc_test( id int(32) not null auto_increment, name varchar(80) default null, date date d...
2021-07-27 19:52:39
452
原创 程序员必知的几种软件架构模式
程序员必知的几种软件架构模式前序分层架构模式多层模式管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构(MVC)事件驱动架构微服务架构前序架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。一种模式就是特定上下文的问题的一种解决方案。然而,很多开发者至今还对各种软件架构模式之间的差别搞不清,甚至对其所知甚少。大体上,主要有下面这几种架构模式:分层架构管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构事
2020-10-27 14:11:45
4583
7
原创 程序员正确看代码的方式
正确的学习方法不仅能够让你事半功倍,也能够让你更加接近真理。初学一个工程的源代码,往往让初学者手足无措。下面的方法希望为初学者带来启示和便利。这个学习方式是基于编译环境和语言比较熟悉的基础上。最重要的是你要确定你要阅读的源代码是一份好代码。因为阅读代码就像阅读书籍。好代码让你终生受益,坏代码会给你留下阴影。 一.先把源代码安装起来编译起来,结合它的文档和手册,熟悉其功能和它的应用方式。如果遇到的是英文
2020-09-25 23:57:56
14451
3
原创 Druid的端口-接口-日志大全
在介绍之前,先列一下Druid各部分的端口号(在代码Main.java中):角色端口Coordinator8081Historical8083Broker8082Realtime8084Overlord8090MiddleManager8091Router8888下面是管理命令:查询某个Meta Datasource下所有的segments:GET http://<coordinator>:8081/druid
2020-09-23 11:16:49
3437
原创 Presto的坑记录
问题1 Java版本:Unrecognized VM option 'ExitOnOutOfMemoryError'Did you mean 'OnOutOfMemoryError=<value>'?Error: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit.回答:Presto requires Java 8 Update 151
2020-09-15 15:33:10
4776
1
转载 如何搭建AI数据中台?
AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的。什么是AI数据中台? 在以往,企业数据管理都以传统的IT架构为基础。当技术部门为业务部门解决问题时,需要从业务需求的探查、技术壁垒的打通等从上到下各个方面来建设新系统。每个系统的建成都自成一体,也就是
2020-09-12 15:57:56
2553
1
原创 CDH--HDFS和Yarn存储不足
备注:最近公司CDH集群中的某个DataNode存储一直报警,分析如下:1)一个集群有多个DataNode2)一个DataNode的数据会存储在多个路径。eg: /data1,/data2,/data3等等3)/data3 路径下面除了【/data3/dfs/dn】和 【/data3/yarn/nm】路径还会有其余文件,导致路径文件过大,同时CDH的 balancer 的平衡机制无法平衡4)解决方法:清除路径多余文件,或者在CDH中的DataNode移除对应路径5)无论DataNode还是y
2020-08-18 16:06:58
924
原创 JVM虚拟机
1.垃圾回收算法分类算法一:引用计数法。 这个方法是最经典点的一种方法。具体是对于对象设置一个引用计数器,每增加一个变 量对它的引用,引用计数器就会加 1,没减少一个变量的引用,引用计数器就会减 1,只有当对象的引用计数器变成 0 时,该对象才会被回收。可见这个算法很简单,但是简单往往会存在很多问题,这里我列举最明显的两个问题。 一是采用这种方法后,每次在增加变量引用和减少引用时都要进行加法或减法操
2020-08-07 19:35:01
440
原创 大数据工程师的日常工作内容
1 写 SQL(很多入职一两年的大数据工程师主要的工作就是写 SQL )2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)5 应用迁移(有
2020-08-07 14:17:57
2459
2
转载 大数据优化方案----Spark数据倾斜
1. 什么是数据倾斜 数据倾斜是一种很常见的问题(依据二八定律),简单来说,比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果:1)OOM(单或少数的节点);2)拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。2. 解决数据倾斜需要1)搞定 Shuffle;2)搞定业务场景;3)搞定 CPU core 的使用情况;(这里的core是虚拟的core而不是机器的物理CPU核,可以理解为就是
2020-08-07 11:27:45
638
Mysql教程所有数据.zip
2020-05-05
新概念2知识点.pdf
2019-09-06
crawlerBank.py
2019-07-08
SpringBoot的mvc三层以及增删改查页面
2018-11-22
spring boot+mybatis整合
2018-11-12
Lucene实战(第2版).pdf
2018-08-28
SparkSql技术
2018-08-16
hadoop-Apache2.7.3+Spark2.0集群搭建
2018-08-16
stable-diffusion-webui启动报错
2024-05-13
微博对一条微博进行评论API
2023-05-17
调用JEECG微博发帖API异常
2023-05-17
mac版本idea中路径颜色设置
2020-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人