
大数据
文章平均质量分 83
从hadoop到spark再到flink
独创之上
这个作者很懒,什么都没留下…
展开
-
大数据之scala03
1)Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable 特质。2)对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两 个包 不可变集合:scala.collection.immutable 可变集合: scala.collection.mutable3)Scala类似于 java 中的 String 对象4)可变集合,就是这个集合可以直接对原对象进行修改,而不会返回新的对象。...原创 2022-08-16 17:44:38 · 399 阅读 · 0 评论 -
大数据之scala02
Java中的类如果类是public的,则必须和文件名一致。一般,一个.java有一个public类注意Scala中没有public,一个.scala中可以写多个类。基本语法[修饰符]class类名{类体}说明(1)Scala语法中,类并不声明为public,所有这些类都具有公有可见性(即默认就是public)(2)一个Scala源文件可以包含多个类。...原创 2022-07-22 23:54:49 · 820 阅读 · 0 评论 -
大数据之HBase
一、简介二、安装部署三、原创 2022-05-15 16:09:03 · 565 阅读 · 0 评论 -
大数据之Kafka开发实例
外部系统的集成,即通过不同的生产端或消费端来实现数据消费过程。1、集成flumeflume是大数据开发者常用的组件,主要是高可用高可靠的日志系统,通过编写.conf文件来实现对日志文件的收集后转存到文件或hdfs集群的操作(离线日志文件)。可用于kafka的生产者,也可用于kafka的消费者。1)、flume作为生产端前期准备:启动kafka集群和zookeeperzk.sh startkf.sh start先启动kafka的消费者,便于接收flume生产端发送的数据原创 2022-05-12 20:37:34 · 1365 阅读 · 0 评论 -
大数据之kafka
一、概念1、定义传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 主要任务:发布/订阅,消息发布者不会将消息发送给特定的订阅者,而是将发布的消息分为不同的类别(topic),由订阅者自己拉取感兴趣的消息。Kafka最 新定义 : Kafka是 一个开源的 分 布式事件流平台 (Event Streaming Platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应...原创 2022-04-23 11:11:07 · 1323 阅读 · 0 评论 -
大数据之flume自定义 Interceptor(多路复用)
1、案例需求使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不 同的分析系统。2、需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要 发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing 的原理是,根据 event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Channel中,所以我们需要自定义一个 Interceptor,为不同类型原创 2022-04-02 20:27:22 · 279 阅读 · 0 评论 -
大数据之flume开发实例
一、复制和多路复用案例需求:使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储 到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 Local FileSystem。 流程图如下: 具体实现:...原创 2022-04-02 10:33:52 · 2065 阅读 · 0 评论 -
大数据中各个组件的简要功能
主要是通过在不同主机上建立多个NameNode,防止由于一台主机失去作用而导致集群失效,配置hadoop高可用,可以自动的使其他主机处于从standby转化为active状态原创 2022-03-26 20:15:11 · 3352 阅读 · 1 评论 -
大数据之hive中DML数据操作
一、数据导入1、向表中装载数据(load)语法:load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表(3)inpath:表示加载数据的路径(4)overwrite:原创 2022-03-21 15:57:03 · 297 阅读 · 0 评论 -
大数据之hive中DDL数据定义
1、创建数据库 create database [if not exists] database_name[COMMENT database_comment] [LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];1)创建一个数据库,数据库在hdfs上的默认存储路径是/user/hive/warehouse/*.db....原创 2022-03-04 15:05:09 · 160 阅读 · 0 评论 -
大数据之hive
一、hive基本概念1、hive介绍hive是hadoop的一个数据仓库工具,用来解决海量结构化日志的数据统计工具,可以将结构化数据文件映射为一张表,并提供查询功能。hive的本质是将HQL语句转化为MapReduce的程序来进行计算查询服务。其中hive处理后的数据存储在HDFS,也可以加载到本地。Hive 通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的 Driver, 结合元数据(MetaStore),将这些指令翻译成 MapReduce,提交到 Hadoop 中原创 2022-03-03 09:48:01 · 2278 阅读 · 0 评论 -
大数据之hive(数据仓库工具)的分组和分区操作
注:在对hive的概念、优缺点、安装部署和参数配置在之后再进行总结,本小节主要对hive中的分组和分区进行总结。一、分组1、group by语句group by通常和聚合函数一起使用,按照一个或者多个列进行分组,然后对每个组进行聚合操作。例如:计算员工表中每个部门中每个岗位的最高工资select t.deptno, t.job, max(t.sal) max_sal from emp t group by t.deptno, t.job;2、having语句在一般的查询wher原创 2022-02-28 11:28:43 · 7595 阅读 · 0 评论 -
大数据之Zookeeper(进程管理)
1、概述zookeeper是一个开源的分布式的,为分布式框架提供协调服务的项目。从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,负责存储和管理较为重要的数据,然后接受观察者的注册,一旦数据状态发生变化,zookeeper就将负责通知已经在zookeeper上注册的观察者(客户端)作出相同的反应。特点:zookeeper:一个领导者(leader),多个跟随者(follow)组成的集群;集群中只要有半数以上节点存活,zookeeper集群就能正常服务,所以一般安装奇数台服务器;原创 2021-12-30 22:43:00 · 2104 阅读 · 0 评论 -
大数据中hadoop中yarn的调度算法
目前,Hadoop 作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。Apache Hadoop3.1.3 默认的资源调度器是 Capacity Scheduler。 CDH 框架默认调度器是 Fair Scheduler。不同的设置可以在yarn-default.xml文件中查看。1、先进先出调度器(FIFO)FIFO 调度器(First In First Out):单队列,根据提交作业的先后顺序,先...原创 2021-12-09 20:48:08 · 1788 阅读 · 0 评论 -
大数据之hadoop中yarn工作
1、yarn的基础架构 yarn主要有ResourceManager、NodeManage、ApplicationMaster和Container等组件构成。其中:ResourceManager(RM)的主要作用:处理客户端请求;监控NodeManager、启动或监控ApplicationMaster;资源的分配和调度。 NodeManager(NM)的主要作用:管理单个节点上的资源;处理来自ResourceManager的命令;处理来自ApplicationMast...原创 2021-12-09 20:27:52 · 374 阅读 · 0 评论 -
大数据之hadoop中MapReduce的join应用
join应用主要是将两个表的数据进行合并操作。分别在map端和reduce端。1、ReduceJoinMap 端的主要工作:为来自不同表或文件的 key/value 对,打标签以区别不同来源的记 录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。Reduce 端的主要工作:在 Reduce 端以连接字段作为 key 的分组已经完成,我们只需要 在每一个分组当中将那些来源于不同文件的记录(在 Map 阶段已经打标志)...原创 2021-12-03 14:33:53 · 1516 阅读 · 0 评论 -
大数据之hadoop中MapReduce内核机制
1、MapTask工作机制具体工作步骤: 在具体工作之前,hadoop会根据客户端提交的数据对数据进行任务分配的规划(数据切片),通过切片数量来建立多少个MapTask数量。(1)Read 阶段:MapTask 通过 InputFormat 获得的 RecordReader,从输入 InputSplit 中 解析出一个个 key/value。(2)Map 阶段:该节点主要是将解析出的 key/value 交给用户编写 map()函数处理,...原创 2021-12-03 14:12:12 · 1204 阅读 · 0 评论 -
大数据之hadoop中MapReduce框架原理
1、概述MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,并发运行在一个 Hadoop 集群上。 优点:易于编程(用户只关心业务逻辑即可)、良好的扩展性(可以动态增加服务器)、高容错性(任意一台机器挂掉,可以将任务转移到另一节点)、适合海量数据计算(PB/BP) 缺点:不擅长实时计算、不擅...原创 2021-11-23 21:43:29 · 1181 阅读 · 0 评论 -
大数据之hadoop中的序列化
1、概述MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,并发运行在一个 Hadoop 集群上。 优点:易于编程(用户只关心业务逻辑即可)、良好的扩展性(可以动态增加服务器)、高容错性(任意一台机器挂掉,可以将任务转移到另一节点)、适合海量数据计算(PB/BP) 缺点:不擅长实时计算、不擅...原创 2021-11-19 14:19:03 · 1736 阅读 · 0 评论 -
大数据之hadoop中的MapReduce(WordCount实例)
1、概述MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,并发运行在一个 Hadoop 集群上。 优点:易于编程(用户只关心业务逻辑即可)、良好的扩展性(可以动态增加服务器)、高容错性(任意一台机器挂掉,可以将任务转移到另一节点)、适合海量数据计算(PB/BP) 缺点:不擅长实时计算、不擅...原创 2021-11-18 11:29:55 · 2540 阅读 · 0 评论 -
大数据之HDFS的读写流程
1、HDFS的写数据流程具体:1)、客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。2)、NameNode 返回是否可以上传。3)、客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。4)、NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3。5)、客户端通过 FSDataOutputStream 模块请求 dn1 上传数.原创 2021-11-14 10:03:50 · 266 阅读 · 0 评论 -
大数据之hadoop中的HDFS(包括客户端操作)
1、概述 随着数据量的日益增长,数据的存储问题尤为突出,HDFS就是分布式文件管理系统中的一种。主要适用于一次写入,多次读出的场景。 hdfs优点:高容错性(数据自动保存多个副本,通过增加副本的形式,提高容错性;某个副本丢失以后,可以自动恢复。);适合处理大数据;可构建在廉价机器上。 hdfs缺点:不适合低延时数据访问;无法高效的对大量小文件进行存储;不支持并发写入、文件随机修改(一个文件只能有一个写,不允许多个线程同时写;仅支持数据append,不支持...原创 2021-11-13 18:07:24 · 1979 阅读 · 0 评论 -
大数据之hadoop运行模式(完全分布式搭建)
Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。➢ 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。➢ 伪分布式模式:也是单机运行,但是具备 Hadoop 集群的所有功能,一台服务器模 拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。➢ 完全分布式模式:多台服务器组成分布式环境。生产环境使用。1、本地运行模式 例子:执行官方统计单词的文档WordCount ·创建...原创 2021-11-09 09:46:55 · 314 阅读 · 0 评论 -
大数据之hadoop运行环境搭建
1、虚拟机环境准备 安装centos7,ip地址192.168.19.100、主机名称hadoop100、内存4G2、设置虚拟机和本地网络的连接状态将VM中的【编辑】-->【虚拟网络编辑器】进NAT设置再到本机的网络连接处修改ip地址与虚拟机中对应(保证 Linux 系统 ifcfg-ens33 文件中 IP 地址、虚拟网络编辑器地址和 Windows 系 统 VM8 网络 IP 地址相同) 同时,将虚拟机中的...原创 2021-11-07 20:26:38 · 516 阅读 · 0 评论 -
大数据学习之hadoop(NameNode和DataNode原理)
大数据1、概念 大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决海量数据的采集、存储和分析计算的问题。2、特点 大量、高速、多样、低价值密度(快速对有价值数据进行提纯)hadoop1、概念 hadoop是分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。2、环境准备3、ha...原创 2021-11-05 11:12:57 · 1183 阅读 · 0 评论 -
shell脚本:获取控制台输入的数据
1、首先创建一个.sh脚本:touch read.sh2、对脚本进行编写:vim read.sh3、具体内容: #!/bin/bash read -t 9 -p "enter you want in 9 seconds" DATA echo $DATA4、其中-t是指输入限定时间,-p是指输入的指示符5、执行: bash ./read.sh...原创 2021-10-20 20:34:21 · 1279 阅读 · 0 评论