
大数据
文章平均质量分 83
AiryView
等待雪融的你
展开
-
Spark3.0.3-Worker的启动流程源码分析
Worker对于Master,其启动脚本就是通过java mainClass的方式调用main方法启动Worker的java进程。自然调用的就是org.apache.spark.deploy.worker.Worker的main方法。于是就从org.apache.spark.deploy.worker.Worker中的main方法开始看起。1.Worker#main...原创 2022-04-11 09:43:43 · 797 阅读 · 0 评论 -
Spark3.0.3-Master的启动流程源码分析
Master对于Master,其启动脚本就是通过java mainClass的方式调用main方法启动Master的java进程。自然调用的就是org.apache.spark.deploy.Master的main方法。于是就从org.apache.spark.deploy.Master中的main方法开始看起1.Master#mainnew SparkConfSpark应用程序的配置,将spark的各种参数设置为键值对 ;new MasterArguments(argSt原创 2022-04-10 17:03:28 · 1559 阅读 · 1 评论 -
SparkSQL-用户自定义函数(UDF)
1.准备工作读取文件数据如下:2.基本用法2.1直接注册udf原创 2022-02-23 10:33:21 · 1916 阅读 · 0 评论 -
Spark中的RDD、DataFrame、DataSet简单总结
三者概念RDD(Resilient Distributed DataSet)弹性分布式数据集,是Spark中最基本的数据处理模型。在代码中是抽象类,代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可按需重新分片不可变RDD封装了计算逻辑不可改变,只能通过产生新的RDD并在新的RDD里面封装计算逻辑以此来改变数据抽象是一个抽象类,需要子类具体原创 2022-02-05 12:55:03 · 2653 阅读 · 0 评论 -
Flume-Kafka-SparkStreaming对接案例实操
1.准备工作①一个java程序,需要有一些操作能够打印特定log日志,并打成jar包;②在linux服务器上安装flume、zookeeper、kafka;2.案例思路当我在jar包程序部署在linux服务器上时,每当我访问特定接口,就会产生特定日志文件,这时候flume监听该日志文件,然后并且对日志进行过滤,一些springboot应用启动日志需要过滤,然后对接到kafka,kafka对日志进行格式化清洗,最后对接SparkStreaming就可以进行相关业务处理了3.案例流程图原创 2022-01-23 15:30:47 · 2329 阅读 · 0 评论 -
hadoop-深入理解MapReduce(二)-MapTask与ReduceTask
1.MapTask1.1机制流程图接着上一篇的job提交流程来继续分析画图1.2源码分析从一个应用程序的map中context.write开始继续进入mapContext.write继续进入output.write这里找到了collector.collect,与上面流程图对应,然后其中还包含getPartition通过分区器以分区的形式收集数据到环形缓冲区。继续进入collect函数我们可以发现我们存储的数据结构是一部分是元数据,一部分是实际数据...原创 2022-01-21 16:35:34 · 1949 阅读 · 0 评论 -
hadoop-MapReduce总结
1.定义是一个分布式运算程序的编程框架,能将用户编写的业务逻辑代码和自带默认组件整合成一个完成的分布式运算程序。2.优缺点2.1优点2.1.1易于编程只需要简单的实现一些接口,就可以完成一个分布式程序。2.1.2高容错性mr程序可以部署在多台机器上,其中一台挂了,可以把上面的计算任务转移到另外一个节点上运行,由hadoop内部自动完成。2.1.3良好的扩展性可以通过增加机器来有效扩展其计算能力。2.1.4海量数据的离线处理实现千台服务器集群并发工作,提供数据处理能原创 2022-01-22 09:11:35 · 1458 阅读 · 0 评论 -
hadoop-深入理解MapReduce(一)-Job提交流程
1.Job提交先图解大致流程,心里有大概框架。首先第一步进入waitForCompletion函数中的submit函数进入sumit函数,重点关注connect函数初始化总结来说,上面过程就是建立连接,创建提交job的代理,判断是local还是yarn客户端然后我们回到submit函数,继续看connect下面的部分进入submitJobInternal函数分析checkSpecs函数 ,检查输出路径是否有问题。其中checkOutP...原创 2022-01-20 20:39:54 · 2105 阅读 · 0 评论 -
hadoop-HDFS(重点总结)
1.定义全称(Hadoop Distributed File System),是一种分布式文件管理系统。2.诞生背景如今时代数据量越来越大,一个操作系统存不下所有的数据,就需要分配到更多的操作系统管理的磁盘中,但是涉及到多个机器就难以管理维护,需要一种系统来管理多台机器上的文件。3.优缺点高容错性、适用于大数据、可构建在廉价机器上。不适合低延时数据访问,对大量小文件存储不友好、不支持并发写入和文件随机修改(仅支持追加)。4.组成架构4.1NameNode可以理解为主要原创 2022-01-03 16:41:21 · 992 阅读 · 0 评论 -
NameNode和SecondaryNameNode的关系(HDFS)
1.引言首先我们对比一下这两的名字,就一个区别,后者多了个Secondary,即次要的意思,可以理解为次要的NameNode;那么我们先不谈其他的,就只看字面意思,那么第一想法就是SNN是NN的候补,即NN挂了那么SNN就继承它的衣钵;又或者SNN是NN的“秘书”,帮忙它做事。NameNode是干嘛的?它负责管理整个文件系统的元数据。那么元数据我们存在哪?内存或者磁盘?假设我们存在内存中,那存取速度很快啊,不过一旦断电,数据就丢失了,可靠性差;那么如果存在磁盘,可靠性起来了,但是效率又低了。原创 2022-01-02 15:17:21 · 1290 阅读 · 0 评论 -
浅谈推荐系统(一)
实际生活小例子我们平常去商店买瓶水,我们比较熟悉之后知道在哪个货架,一下子就能找到。我们想买手机的时候,去某宝或者并夕夕搜索华为xx然后选择合适的购买。但这有一个前提,都建立在客户有明确需求的情况下。另外一个因素是当今时代“信息过载”,可能一个便利店的商品不多,你逛几次就熟悉得差不多了,但是中百仓储那么多货品,对我这种路盲来说,不迷路就算成功。即使某宝和并夕夕的搜索引擎很强大速度也快,但是偌多的商品却只是让用户去主动搜索购买,未免对用户的主动性有太多要求;搜索引擎也表示.原创 2021-12-17 16:25:02 · 851 阅读 · 0 评论 -
SparkCore-常用转换算子总结
主要是分为三个类型:Value 类型、双 Value 类型和 Key-Value 类型。这一篇主要介绍value类型的1.Value类型1.1map传递一个对象,返回一个对象源码中给的解释机翻如下:通过对这个RDD的所有元素应用一个函数,返回一个新的RDD。说人话就是:将处理的数据逐条进行映射转换,可以是类型的转换,也可以是值的转换。值的转换,即里面每个数据*2val mapRDD: RDD[Int] = rdd.map( _ * 2)类型转换,转.原创 2021-11-27 13:24:32 · 664 阅读 · 0 评论 -
Kafka简单学习总结
1.定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。这个定义已经暗示得很明确了。适用于大数据的实时处理领域,并且一般是搭建集群来使用,是消息队列的一种。大数据技术栈生态:kafka位于数据传输层和数据存储层,是为数不多的覆盖超过一层的技术。2.回顾消息队列①解耦:允许独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。②可恢复性:系统的部分组件失效不会影响整个系统,由于消息队列降低了进程间的耦合度,所以即使一个处理消息的..原创 2021-11-23 13:18:59 · 1957 阅读 · 0 评论 -
Flume简单学习总结
1.定义flume是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。它是基于流式架构的,灵活简单。很明显从这个定义中就能看出其具备:3个特点:①高可用的;②高可靠的;③分布式的。3个作用:①采集;②聚合;③传输。2.应用其实从其定义中来看,就知道它能够使用在大数据相关领域,因为大数据最直观的连接就是数据多(大),那么“海量”能够很好的契合。并且很明显它是处理大数据领域数据采集、存储、计算中的采集这一环大数据技术栈生态体系:①一个面向消费者的网站,可以通过收原创 2021-11-17 13:27:19 · 1874 阅读 · 0 评论 -
MongoDB简单学习总结
1.定义一个非关系型数据库,也称为文档型数据库。虽然是非关系数据库,但是其实在使用过程,我觉得这玩意是最想关系型数据库的nosql了,因为相对于另一种常见的非关系数据库redis来说,至少它还有点关系型数据库的影子。2.结构对于其支持的数据结构,称为BSON,和JSON不能说很像,只能说一模一样,不过BSON有JSON没有的一些数据类型,如Date和BinData类型。2.1与mysql对比SQL MongoDB 解释 database database原创 2021-11-12 17:51:11 · 834 阅读 · 0 评论 -
虚拟机网络配置-踩坑记录一
由于毕设需要,我最近在学大数据相关,就先学hadoop,需要通过虚拟机搭建hadoop的环境,同时要以静态ip的形式设置网卡,这样的话不至于我几天后打开ip又变了。无论是虚拟机网络环境net的设置,还是给/etc/sysconfig/network-scripts/ifcfg-ens33下的网卡配置静态ip和网关,以及在window网络连接中的vmnet8中的ipv4配置默认网关和DNS服务器,但是还是用远程连接工具连不上。 在网上搜了很多,基本我上面的三件套配置完是不...原创 2021-11-05 09:38:47 · 1154 阅读 · 0 评论