- 博客(29)
- 收藏
- 关注
原创 Spark sql 自定义函数(UDF、UDTF、UDAF)Spark版本 3.0之前 AND 3.0之后
Spark自定义UDF、UDAF、UDTF 函数
2023-04-02 13:15:20
712
原创 Apache Airflow 2.5.1 最新(celery集群方式)安装
最新版本 2.5.1( Apache Airflow celery集群安装) 教程
2023-03-03 12:49:14
653
原创 Apache Dolphinscheduler 最新 3.1.4 概述和安装(1)
Apache Dolphinscheduler 最新版本3.1.4
2023-03-02 12:56:02
1289
原创 ApacheRanger最新版本2.3.0 本地编译-打包
Apache Ranger是大数据领域的一个集中式安全管理框架,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理。用户可以通过Ranger实现对集群中数据的安全访问。ApacheRanger 2.3.0最新版本本地编译打包教程及问题解决
2023-02-28 12:29:27
774
原创 Spark SQL
Spark SQL一、概述http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是Spark中一个模块,用以对结构化数据进行处理。SparkSQL在RDD之上抽象出来Dataset/Dataframe 这两个类提供了类似RDD的功能,也就意味用户可以使用map、flatMap、filter等高阶算子,同时...
2020-01-01 19:31:16
242
原创 Apache Spark
Apache Spark一、概述官方地址:http://spark.apache.org/Lightning-fast unified analytics engine : 快如闪电的统一分析引擎快如闪电:Spark基于内存式计算,分布式并行计算框架。不同于MapReduce框架,基于磁盘式计算,将Job粗粒度的分为MapTask、ReduceTask,并且必须通过网络进行数据...
2020-01-01 12:46:13
529
原创 Spark Shuffle 源码剖析
Spark Shuffle 源码剖析概念理论铺垫一、 Spark 分区数量由谁决定Spark source 如果是TextFile() 读取HDFS中的文件,2参数,第一个参数是路径,第二个是指定分区数量如果指定分区数量,0或1,则分区数量的多少取决于文件数量的多少如果没有指定分区数量,默认则是2,如果文件总大小为100m,100/2(分区数量)=50,50为goalSize,...
2019-12-27 12:24:00
362
原创 经典算法(面试必问)
入门算法(面试经典问题)1.快速排序(快排) 时间复杂度O(nlogn) 最坏时间复杂度O(n^2)基本思想:选择一个基准数作为参照物,由2边向中进行检索,先从右边检索比基准数小的,再从左边检索比基准数大的,然后交换2个元素,再进行检索!package quicksortdemo;public class Demo1QuickSort { public static vo...
2019-12-23 12:01:08
400
原创 多线程回顾聚合
多线程聚合写这篇的目的是回顾多线程,纯属个人总结,不足之处,大家多多指导引言在我看来,随着商业化网络的大肆发展,许多许多的商业网站,类似淘宝,京东,这种大规模的进行网上交易,牵扯到的一些问题,类似高并发这种问题。虽然在当代,许多许多的框架为我们封装了一系列的操作,让我们对这种高并发问题的产生得到了有效的处理,但是作为程序员我们必须要了解一些底层性,最基础的概念,多线程反而到成了我们学习...
2019-11-03 14:24:18
462
原创 Stream编程
一 Stram编程主要是 回忆 jdk1.8提供的stream编程中一些方法,还有scala中类似流的操作,以及kafka中无状态操作算子的区分,老是区分不了,今天写一篇文章,加深自己的印象,首先介绍jdk1.8新特性stream所谓jdk1.8出现的Stream就是对一些集合功能的增强,他可以对集合中的元素做到细粒度的控制扫描,将其转换为类似一条流水线,并对其进行处理,stream的出...
2019-10-27 19:25:34
429
原创 Hbase 概述2
一、Hbase 环境搭建-单机1.1 环境HadoopZK1.2 下载安装[root@HadoopNode00 ~]# mkdir /home/hbase[root@HadoopNode00 ~]# tar -zxvf hbase-1.2.4-bin.tar.gz -C /home/hbase/[root@HadoopNode00 ~]# vi .bashrcexport HB...
2019-10-20 13:08:24
196
原创 Hbase概述
一、概述Hbase全称为Hadoop Database(基于HDFS的数据库),设计来源Google 的bigtable,Hbase 仿照 bigtable设计基于HDFS上的一款数据库。1.1 CAP原则CAP原则又称之为CAP原理,指的是在分布式系统当中,一致性、可用性、分区容错性,三者不可兼得HBase 是保证CP1.2 什么是基于列式存储?HBase 是基于列式存储的NoS...
2019-10-17 21:04:39
2785
原创 Hadoop的高可用
一、架构HadoopNode01HadoopNode02HadoopNode03nn1nn2journal nodejournal nodejournal nodezkfczkfcdatanodedatanodedatanodezk01zk02zk03rm1rm2nodemanagernodemanagern...
2019-10-15 08:42:31
274
原创 Zookeeper的使用
一 、Zookeeper javaAPI1.1 依赖 <dependency> <groupId>org.apache.curator</groupId> <artifactId>curator-framework</artifactId> <version...
2019-10-14 08:52:20
151
原创 MapReduce优化和Zookeeper简介
一 MapReduce 优化策略(1)干预切片计算逻辑CombineTextInputFormat(2)实现partition策略防止数据倾斜,实现reduce task 负载均衡(3)适当调整YarnChild的内存参数,需要查阅Yarn的参数配置手册,vcores cpu 内存参数(4)适当调整溢写参数的大小(5)适当调整合并文件的并行度<property> <...
2019-10-12 09:21:08
429
原创 MR过程和Shuffle详解
一 MR 过程MR框架是使用InputFormat为map所需的数据进行预处理,并为其提供数据。两个功能:切片,封装keyvalue因为InputSplit为逻辑切分而非物理拆分,所以说还需要RecoderReader根据InputSplit中的信息里处理InputSplit中的具体信息,加载数据并转换为合适的Map任务的keyvalue,输入给Map任务Map是自定义的逻辑,根据In...
2019-10-11 11:18:08
1892
原创 MapReduce 组件解析
一 MapReduce 组件解析(1)概述通过WC案例的编写,不难发现,其实我们是按照一定的规则进行程序的输入和输出,将作业放在本地运行或者提交到Hadoop集群中运行。Hadoop是将数据切分成了若干个输入切片(Input Split),并将每个切片交由一个MapTask的进程处理,MapTask不断从对应的Split中解析出来一个一个的 key、value,并交由map()函数进行处理。...
2019-10-10 09:11:58
490
原创 MapReduce 计算流程和job提交流程
一.MapReduce 计算流程1 首先是通过程序员所编写的MR程序通过命令行本地提交或者IDE远程提交2 一个MR程序就是一个Job,Job信息会给Resourcemanger,向Resourcemanger注册信息3 在注册通过后,Job会拷贝相关的资源信息(从HDFS中)4 紧接着会向Resourcemanger提交完整的Job信息(包括资源信息)5a Resourcema...
2019-10-09 22:06:31
348
原创 MR 入门程序
1.1 MR 入门程序需求:wangkai gjf zkf suns gzywangkai zkf suns gzyzkf suns gzy hxz leijunwangkai 2gjf 1zkf 3 suns 3gzy 3hxz 1leijun 1(1)依赖 <dependency> <groupId&...
2019-10-09 09:46:53
657
原创 MapReduce概念及yarn搭建
一、MapReduce1.1 概述MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组...
2019-10-08 08:46:51
165
原创 HDFS Architecture
一. HDFS ArchitectureHDFS为主从架构,HDFS中有一个主的NameNode,管理系统命名空间和管理客户端对文件的访问,其中还有DataNode负责和NameNode进行协调工作,DataNode负责数据的存储,在存储数据(文件)的过程中一个文件会被分成一个块或者多个块,在NameNode中存储了一些数据(存储的数据是块到DataNode的映射关系),datanode还根据N...
2019-10-07 22:14:48
269
原创 大数据即hadoop相关
一、概述1.1 大数据概念大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。1.2 大数据面临的问题存储:单机存储有限,需要使用集群(多台机器)存储数据;硬件上必须有足够的存储容量,软件上有对应的容灾机制。分析:单机算力有限,也需要使用集群进行计算(需要在合理的时间内将数据变废为宝)1.3 大数据的特点4V Volume 数...
2019-10-06 10:08:54
250
原创 springboot中自动配置下
springboot自动配置出发点进入springbootApplication的源码.重点关注自动配置的注解@import注解是将一些对象交由工厂管理的 springboot到底将那些对象交由工厂管理了4. 根据逻辑分析返回的string[] 即是springboot交给工厂管理的组件的全限定名5. 发现执行了getCandudateConfigurations()方法之...
2019-09-14 10:14:48
171
原创 springboot自动配置原理详解1
spirng中注解释的属性注入1.开发配置文件jdbc.driver=com.mysql.jdbc.Driverjdbc.url=jdbc:mysql://localhost:3306/emsjdbc.username=rootjdbc.password=root2.开发配置类@PropertySource(value = "classpath:jdbc.properties") ...
2019-09-14 09:36:12
225
原创 mysql服务器集群搭建
1.现有架构存在的一些问题 1.随着互联网的兴起和发展,当大量请求涌入的时候,也就是高并发,单节点 的应用服器和单节点mysql数据库服务器,会因为处理速度过慢或者是外界不可抗 因素导致单节点服务器的宕机,最终致使一个网站 瘫痪,为解决现有存在的问题,引入集群(cluster)相关概念。 2.集群就是指多个服务器去同时去完成同一项工作 3.怎么解决? 主从复制,读写分离主从复制...
2019-09-13 11:57:18
659
原创 SpringAop 知识点
代理模式1.概念:代理模式给某一个对象提供一个代理对象,并由代理对象控制对原对象的引用,通俗的来讲代理模式就是我们生活中常见的中介2.作用:开闭原则,增加功能(在原有功能的基础上增加一些功能),控制某个对象的引用3.原则:1.必须与目标对象实现相同的接口 2.依赖于目标对象而创建4.方式1.静态代理:工作量增大 ,需要实现相同的接口,并实现其中的方法2.动态代理:再程序执行过程中...
2019-08-22 22:15:55
159
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人