自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

辉哥大数据

学习是一种享受,也是一种痛苦,更是一种回忆!!!

  • 博客(543)
  • 资源 (14)
  • 问答 (1)
  • 收藏
  • 关注

原创 Spark大数据开发与应用案例(视频教学版)(十)--第五章

本章将全面解析RDD的Shuffle机制,从Shuffle的概念与历史演进出发,深入探讨其验证及复用性。随后,我们将详细剖析HashShuffleManager与SortShuffleManager的工作原理及其优化策略,为读者揭示Spark分布式计算的核心奥秘。

2025-03-24 15:13:07 611

原创 Spark大数据开发与应用案例(视频教学版)(九)--第四章下

本章深入探索Spark的核心抽象——RDD(Resilient Distributed Dataset,弹性分布式数据集)。从RDD的基本概念出发,逐步解析其血缘关系、依赖类型及多种算子(包括Transformation、Action及特殊算子)。同时,通过模拟自定义RDD与任务执行原理图解,让读者掌握Spark的实战技巧。

2025-03-14 16:18:59 728

原创 Spark大数据开发与应用案例(视频教学版)(八)--第四章上

本章深入探索Spark的核心抽象——RDD(弹性分布式数据集)。从RDD的基本概念出发,逐步解析其血缘关系、依赖类型及多种算子(包括Transformation、Action及特殊算子)。同时,通过模拟自定义RDD与任务执行原理图解,让读者掌握Spark的实战技巧。

2025-02-22 20:46:43 901

原创 Spark大数据开发与应用案例(视频教学版)(七)--第三章下

本章将引领您探索Scala基础编程,随后指导您如何在Spark中创建项目,并深入编写Spark程序。通过一系列学习,您将掌握大数据处理的关键技能。最后,本章小结将帮助您巩固所学,为后续学习打下坚实基础。本章主要知识点:Scala基础编程Spark创建项目Spark程序编写

2025-01-31 10:07:54 958

原创 Spark大数据开发与应用案例(视频教学版)(六)--第三章上

本章将引领您探索Scala基础编程,随后指导您如何在Spark中创建项目,并深入编写Spark程序。通过一系列学习,您将掌握大数据处理的关键技能。最后,本章小结将帮助您巩固所学,为后续学习打下坚实基础。

2025-01-16 13:58:45 1028

原创 Spark大数据开发与应用案例(视频教学版)(五)--第二章下

本章将讲解Spark的概念及其特点、运行模式、执行流程以及一些常用的专有名词,帮助读者对Spark形成一个大致的印象,为后续的学习打下基础。

2025-01-11 21:20:19 746

原创 Spark大数据开发与应用案例(视频教学版)(四)--第二章上

本章主要知识点:1)VM虚拟机安装2)Ubuntu 22.04系统安装3)Ubuntu 22.04网络配置4)Ubuntu 22.04环境配置5)zookeeper 安装6)Hadoop 安装7)Spark安装8)集群和代码下载

2025-01-04 11:38:59 1391 1

原创 Spark大数据开发与应用案例(视频教学版)(三)--第一章下

本章主要知识点:1)Spark概念及其特点2)Spark技术生态系统3)Spark运行模式4)Spark执行流程5)Spark专有名词

2025-01-01 11:04:26 1240 1

原创 Spark大数据开发与应用案例(视频教学版)(二)--第一章上

1)Spark概念及其特点2)Spark技术生态系统3)Spark运行模式4)Spark执行流程5)Spark专有名词

2024-12-29 21:53:12 1093 1

原创 Spark大数据开发与应用案例(视频教学版)(一)--文前

Spark大数据开发与应用案例(视频教学版)(一)--文前

2024-12-26 22:51:24 1045 2

原创 我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架

致 青 春 赶在儿子1岁生日之际,赶在我30岁告别之际,我撰写《Hadoop+Spark生态系统操作与实战指南》一书,作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一页,我借【此书】记录下我的青春,我借【清华大学出版社】将我青春永远留在【清华大学】。 我的新书《Hadoop+Spark生态系统操作与实战指南》,清华大学出版社,已经在京东、天猫、当当

2017-08-07 20:22:59 8181 11

原创 DeepSeek的介绍

综上所述,DeepSeek是一家专注于开发先进大语言模型和相关技术的创新型科技公司。其产品在多项测试中表现出色,且训练成本远低于行业平均水平。然而,DeepSeek也面临着多元化功能不足和交互体验差异等挑战。未来,随着技术的不断进步和市场的深入拓展,DeepSeek有望在人工智能领域取得更加显著的成就。

2025-01-31 10:33:48 640

原创 程序员的日常生活

在数字时代,程序员不仅是技术的塑造者,更是连接现实与虚拟世界的桥梁。他们的生活,如同一首由代码、梦想与日常琐事交织而成的交响曲,既充满了挑战与激情,也不乏平凡与温馨。本文将深入探索程序员的生活,从工作、学习、休闲到人际关系,全方位展现这一群体的独特风貌。

2025-01-11 21:30:47 831

原创 微博开发--获取指定评论的方法

微博开发--获取指定评论的方法

2023-05-23 14:47:30 446

原创 Ubuntu 20.04安装gitlab

一、Ubuntu系统平台查看二、Ubuntu系统软件源更新三、Ubuntu系统安装依赖​四、Ubuntu系统下载安装包五、Ubuntu系统安装​gitlab六、Ubuntu系统系统配置七、gitlab重新启动系统​ERROR01ERROR02

2023-05-09 09:51:11 319

原创 安卓相关错误解决

将文件内容修改:gradle.properties。

2023-04-19 11:37:09 495

原创 数据仓库——如何量化评价一个数据仓库的好坏?

数据仓库——如何量化评价一个数据仓库的好坏

2023-01-29 11:05:37 911

原创 数据倾斜——hdfs存储数据倾斜

数据倾斜——hdfs存储数据倾斜

2023-01-28 10:07:38 677

原创 数据团队整体分工分布

数据团队整体分工分布

2023-01-18 11:21:02 621

原创 数据埋点的设计

数据埋点的设计

2023-01-18 10:42:00 1164

原创 3天学会撰写软件发明专利——3.生命周期

专利生命周期

2022-12-24 12:15:45 1290

原创 3天学会撰写软件发明专利——5.专利法律常识

专利的法律常识

2022-12-24 11:06:02 1229

原创 3天学会撰写软件发明专利——专利申请费用

专利的法律

2022-12-24 11:01:55 299

原创 3天学会撰写软件发明专利——2.专利的价值

1)学生对专利的价值2)个人对专利的价值3)企业对专利的价值

2022-12-24 10:39:20 305

原创 3天学会撰写软件发明专利——专利是什么

如何撰写软件发明专利

2022-12-21 20:47:01 416

原创 Maven本地运行找不到方法

Maven本地运行找不到方法

2022-11-08 17:26:39 657

原创 数据团队总监生存指南

新晋总监生存指南开篇之总监二三事新晋总监生存指南二——建立指标新晋总监生存指南三——OKR实践新晋总监生存指南四——项目执行指南新晋总监生存指南五——人才运营机制新晋总监生存指南终章——构建团队信息通道...

2022-08-22 10:13:38 334

转载 maven 中 slf4j的使用

slf4j的使用

2022-07-22 16:48:56 2222

原创 案例--检验表达式中的括号是否成对出现

/** * 检验表达式中的括号是否成对出现 */ def isMatch(rules: String): Boolean = { // 括号中文转英文字符 val str = rules.replaceAll("(", "(").replaceAll(")", ")") // 设置栈存储容器 val brackets = new util.HashMap[Character, Character] // key值为:')' ,value值...

2022-01-17 17:33:43 446

原创 用户画像理论和实战

用户画像

2021-11-02 19:17:43 550

原创 SQL行转列、列转行

目录一、整理测试数据SQL行转列、列转行这个主题还是比较常见的,行转列主要适用于对数据作聚合统计,如统计某类目的商品在某个时间区间的销售情况。列转行问题同样也很常见。一、整理测试数据create table wyc_test( id int(32) not null auto_increment, name varchar(80) default null, date date d...

2021-07-27 19:52:39 452

原创 程序员必知的几种软件架构模式

程序员必知的几种软件架构模式前序分层架构模式多层模式管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构(MVC)事件驱动架构微服务架构前序架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。一种模式就是特定上下文的问题的一种解决方案。然而,很多开发者至今还对各种软件架构模式之间的差别搞不清,甚至对其所知甚少。大体上,主要有下面这几种架构模式:分层架构管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构事

2020-10-27 14:11:45 4583 7

原创 程序员正确看代码的方式

       正确的学习方法不仅能够让你事半功倍,也能够让你更加接近真理。初学一个工程的源代码,往往让初学者手足无措。下面的方法希望为初学者带来启示和便利。这个学习方式是基于编译环境和语言比较熟悉的基础上。最重要的是你要确定你要阅读的源代码是一份好代码。因为阅读代码就像阅读书籍。好代码让你终生受益,坏代码会给你留下阴影。       一.先把源代码安装起来编译起来,结合它的文档和手册,熟悉其功能和它的应用方式。如果遇到的是英文

2020-09-25 23:57:56 14451 3

原创 Druid的端口-接口-日志大全

在介绍之前,先列一下Druid各部分的端口号(在代码Main.java中):角色端口Coordinator8081Historical8083Broker8082Realtime8084Overlord8090MiddleManager8091Router8888下面是管理命令:查询某个Meta Datasource下所有的segments:GET http://<coordinator>:8081/druid

2020-09-23 11:16:49 3437

原创 Presto的坑记录

问题1 Java版本:Unrecognized VM option 'ExitOnOutOfMemoryError'Did you mean 'OnOutOfMemoryError=<value>'?Error: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit.回答:Presto requires Java 8 Update 151

2020-09-15 15:33:10 4776 1

转载 如何搭建AI数据中台?

       AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的。什么是AI数据中台?       在以往,企业数据管理都以传统的IT架构为基础。当技术部门为业务部门解决问题时,需要从业务需求的探查、技术壁垒的打通等从上到下各个方面来建设新系统。每个系统的建成都自成一体,也就是

2020-09-12 15:57:56 2553 1

原创 CDH--HDFS和Yarn存储不足

备注:最近公司CDH集群中的某个DataNode存储一直报警,分析如下:1)一个集群有多个DataNode2)一个DataNode的数据会存储在多个路径。eg: /data1,/data2,/data3等等3)/data3 路径下面除了【/data3/dfs/dn】和 【/data3/yarn/nm】路径还会有其余文件,导致路径文件过大,同时CDH的 balancer 的平衡机制无法平衡4)解决方法:清除路径多余文件,或者在CDH中的DataNode移除对应路径5)无论DataNode还是y

2020-08-18 16:06:58 924

原创 JVM虚拟机

1.垃圾回收算法分类算法一:引用计数法。       这个方法是最经典点的一种方法。具体是对于对象设置一个引用计数器,每增加一个变 量对它的引用,引用计数器就会加 1,没减少一个变量的引用,引用计数器就会减 1,只有当对象的引用计数器变成 0 时,该对象才会被回收。可见这个算法很简单,但是简单往往会存在很多问题,这里我列举最明显的两个问题。       一是采用这种方法后,每次在增加变量引用和减少引用时都要进行加法或减法操

2020-08-07 19:35:01 440

原创 大数据工程师的日常工作内容

1 写 SQL(很多入职一两年的大数据工程师主要的工作就是写 SQL )2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)5 应用迁移(有

2020-08-07 14:17:57 2459 2

转载 大数据优化方案----Spark数据倾斜

1. 什么是数据倾斜       数据倾斜是一种很常见的问题(依据二八定律),简单来说,比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果:1)OOM(单或少数的节点);2)拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。2. 解决数据倾斜需要1)搞定 Shuffle;2)搞定业务场景;3)搞定 CPU core 的使用情况;(这里的core是虚拟的core而不是机器的物理CPU核,可以理解为就是

2020-08-07 11:27:45 638

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉,中科院硕士研究生毕业,专注于大数据领域多年。曾工作于清华大学、京东,现从事大数据讲师一职。 博客地址:https://blog.youkuaiyun.com/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点,链接:https://blog.youkuaiyun.com/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明: 2、选择爬取 代码说明: 1、如果没有参数,则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误,会邮件报警,且不影响其余银行抓取 2、如果有参数(参数只能有一个)且参数正确,则抓取对应银行数据 3、如果有参数(参数只能有一个)且参数操作,则停止运行,弹出正确参数列表 4、15家银行的银行名称、 银行代码 、 银行URL如下所示: 备注: 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位,后面全部替换成*****

2019-01-26

sqoop的数据导入

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法 参考地址:https://blog.youkuaiyun.com/silentwolfyh/article/details/84350966 参考地址:https://blog.youkuaiyun.com/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录 一、整体结构图 二、Spring boot搭建 三、整合Mybatis(自动生成工具) 1、集成druid,使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件: 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者:silentwolfyh 来源:优快云 原文:https://blog.youkuaiyun.com/silentwolfyh/article/details/83995563 版权声明:本文为博主原创文章,转载请附上博文链接!

2018-11-12

Lucene实战(第2版).pdf

《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录 一:为什么sparkSQL? 3 1.1:sparkSQL的发展历程 3 1.1.1:hive and shark 3 1.1.2:Shark和sparkSQL 4 1.2:sparkSQL的性能 5 1.2.1:内存列存储(In-Memory Columnar Storage) 6 1.2.2:字节码生成技术(bytecode generation,即CG) 6 1.2.3:scala代码优化 7 二:sparkSQL运行架构 8 2.1:Tree和Rule 9 2.1.1:Tree 10 2.1.2:Rule 10 2.2:sqlContext的运行过程 12 2.3:hiveContext的运行过程 14 2.4:catalyst优化器 16 三:sparkSQL组件之解析 17 3.1:LogicalPlan 18 3.2:SqlParser 20 3.1.1:解析过程 20 3.1.2:SqlParser 22 3.1.3:SqlLexical 25 3.1.4:query 26 3.3:Analyzer 26 3.4:Optimizer 28 3.5:SpankPlan 30 四:深入了解sparkSQL运行计划 30 4.1:hive/console安装 30 4.1.1:安装hive/cosole 30 4.1.2:hive/console原理 31 4.2:常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3:不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4:不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5:查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五:测试环境之搭建 40 5.1:虚拟集群的搭建(hadoop1、hadoop2、hadoop3) 41 5.1.1:hadoop2.2.0集群搭建 41 5.1.2:MySQL的安装 41 5.1.3:hive的安装 41 5.1.4:Spark1.1.0 Standalone集群搭建 42 5.2:客户端的搭建 42 5.3:文件数据准备工作 42 5.4:hive数据准备工作 43 六:sparkSQL之基础应用 43 6.1:sqlContext基础应用 44 6.1.1:RDD 44 6.1.2:parquet文件 46 6.1.3:json文件 46 6.2:hiveContext基础应用 47 6.3:混合使用 49 6.4:缓存之使用 50 6.5:DSL之使用 51 6.6:Tips 51 七:ThriftServer和CLI 51 7.1:令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2:ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3:小结 56 八:sparkSQL之综合应用 57 8.1:店铺分类 57 8.2:PageRank 59 8.3:小结 61 九:sparkSQL之调优 61 9.1:并行性 62 9.2: 高效的数据格式 62 9.3:内存的使用 63 9.4:合适的Task 64 9.5:其他的一些建议 64 十:总结 64

2018-08-16

MacBook Pro的快捷键

目录: 一、开机相关命令快捷键 , 二、常用系统快捷键 , 三、窗口操作 , 四、Finder , 五、屏幕截图

2018-08-16

hadoop-Apache2.7.3+Spark2.0集群搭建

包括了:Hadoop2.7.3、Spark2.0、Zookeeper3.4.8、Hive、Hbase、Kafka2.10、Flume的环境搭建

2018-08-16

SqlServer驱动包

SqlServer驱动包,代码请关注http://blog.youkuaiyun.com/silentwolfyh

2015-08-30

silentwolf

让你在最短时间学会ASP.NET 通俗易懂

2010-05-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除