
大数据
文章平均质量分 80
许中宝
这个作者很懒,什么都没留下…
展开
-
大数据入门--Flink(四)状态管理与容错机制
状态管理与容错机制术语状态管理容错机制状态一致性检查点(checkpoint)保存点(savepoint)状态后端(state backend)案例术语算子状态、键控状态、状态一致性、检查点、保存点、状态后端。状态管理流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过 90 度时发出警告。有状态的计算则会基于多个事件输出结果。状态分为两类:算子状态(operator state)算子状态的作用范原创 2021-09-12 19:08:29 · 540 阅读 · 0 评论 -
大数据入门--Flink(三)Window相关概念与API
概述streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据为有限块进行处理的手段。Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作。窗口类型窗口可以分为两大类:CountWindow:按照指定的数据条数生成一个 Window,与时间无关。TimeWindow:按照时间生成 Window。原创 2021-09-11 17:37:23 · 632 阅读 · 0 评论 -
大数据入门--Flink(二)流处理API
Flink流处理API概述EnvironmentgetExecutionEnvironmentcreateLocalEnvironmentcreateRemoteEnvironmentSource从集合读取从本地文件读取从kafka读取自定义数据源读取TransformMapFlatMapFilterKeyBy滚动聚合算子sum()/max()/min()maxBy()/minBy()ReduceSplit 和 SelectConnect 和 CoMapUnion富函数RichXXXSink概述Env原创 2021-09-04 17:26:30 · 778 阅读 · 0 评论 -
大数据入门--Flink(一)安装与Job提交方式
Flink安装与Job部署组件介绍安装方式Standalone模式YarnSession ModelPer-Job ModeApplication Mode学习版本:1.13.2组件介绍参考文档必须组件组件介绍实现Flink Client编译batch或者streaming应用为数据流图,然后提交给JobManagerCommand Line InterfaceREST EndpointSQL ClientPython REPLScala REPLJobMana原创 2021-09-04 16:07:45 · 735 阅读 · 0 评论 -
大数据入门--Kafka(三)API
环境准备pom.xml<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.11.0.0</version></dependency>生产者API需要用到的类:KafkaProducer:需要创建一个生产者对象,用来发送数据ProducerConfi原创 2021-08-21 17:54:54 · 302 阅读 · 0 评论 -
大数据入门--Kafka(二)生产者与消费者
生产者消息投递的ACK方式0:producer 不等待 broker 的 ack,这一操作提供了一个最低的延迟,broker 一接收到还没有写入磁盘就已经返回,当 broker 故障时有可能丢失数据;1:producer 等待 broker 的 ack,partition 的 leader 落盘成功后返回 ack,如果在 follower同步成功之前 leader 故障,那么将会丢失数据;-1(all):producer 等待 broker 的 ack,partition 的 leader 和原创 2021-08-21 16:24:33 · 233 阅读 · 0 评论 -
大数据入门--Kafka(一)集群搭建与基本架构
基本架构Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。生产者消费者(消费者组CG)kafka集群BrokerTopicPartitionReplicationLeaderFollowerZookeeper集群搭建kafka集群规划清单kafka 版本kafka_2.11-0.11.0.3.tgzkafka安装机器hadoop101、hadoop102、hadoop原创 2021-08-21 14:46:04 · 243 阅读 · 1 评论 -
大数据入门--Flume(二)agent内部原理与进阶案例
agent内部原理与进阶案例Flume Agent内部原理架构图主要组件进阶案例复制故障转移负载均衡Flume Agent内部原理架构图如有问题,欢迎指正,学习中,勿喷!主要组件SourceChannel ProcessorInterceptorChannel SelectorReplicating Channel Selector (default,类似MQ的订阅模式)Multiplexing Channel Selector(多路复用,需要配合自定义Interceptor添加自原创 2021-07-31 18:03:36 · 422 阅读 · 0 评论 -
大数据入门--Flume(一)安装教程与案例
安装教程下载安装 apache-flume-1.9.0-bin.tar.gz解压配置JAVA_HOMEvi conf/flume-env.sh.templateexport JAVA_HOME=/opt/module/jdk1.8.0_144案例监控端口数据官方案例(netcat-logger)官方链接敬上因为此案例需要用到netcat,如果没有需要提前安装# 安装yum install -y nc# 启动服务端nc -l localhost 44444# 启动客户端,就原创 2021-07-31 13:03:15 · 612 阅读 · 0 评论 -
大数据入门--HBase(三)与MR交互集成
完成HBase与MR交互的配置HBase表作为MR的输入HBase表作为MR的输出HBase与MR交互配置查看 HBase 的 MapReduce 任务的执行[hadoop@hadoop101 hbase-1.3.1]$ bin/hbase mapredcp设置环境变量vi /etc/profile 添加HBASE_HOME,HADOOP_HOMEexport HBASE_HOME=/opt/module/hbase-1.3.1export HADOOP_HOME=/opt/mo..原创 2021-07-25 12:33:43 · 691 阅读 · 0 评论 -
大数据入门--HBase(二)常用API案例
HBase常用API案例概述抛砖引玉篇,不废话。注意演示了HBase常见操作APIDDLnamespace 创建 删除table 创建 删除DML数据的增改(改==增,都是put操作)、删、查话不多说,撸代码!!!package com.xbz.study.bigdata.hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apac原创 2021-07-24 18:03:10 · 573 阅读 · 0 评论 -
大数据入门--HBase(一)环境搭建&常见命令
集群环境搭建准备工作Hbase依赖zookeeper,所以需要先搭建zookeeper,参考此文Hbase对时间同步要求较高,建议使用ntp做时间同步,参考此文:ntp服务安装安装当前安装版本为:hbase-1.3.11. 解压安装包tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/module/cd /opt/module/hbase-1.3.12.修改配置文件hbase-env.sh添加export JAVA_HOME=/opt/module原创 2021-07-22 20:28:42 · 782 阅读 · 2 评论 -
大数据入门--Hive(四)数据查询
数据查询语法WHERE排序order bysort bydistribute bycluster by语法SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][ORDER BY col_list][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_l原创 2021-07-17 15:29:48 · 1804 阅读 · 2 评论 -
大数据入门--Hive(三)DML数据操作
数据操作数据导入load dataInsert 插入Create Table... as Select ...Create External Table ... Location ...Import(建表+数据)数据导出Insert 导出Hive Shell 命令导出Export 导出到 HDFS 上数据导入load dataload data [local] inpath '数据的 path' [overwrite] into table table_name [partition (partco原创 2021-07-11 11:41:28 · 474 阅读 · 0 评论 -
大数据入门--Hive(二)数据类型与DDL数据定义
数据类型与DDL数据定义数据类型基本数据类型集合数据类型DDL数据定义--数据库创建数据库查询数据库修改数据库删除数据库DDL数据定义--表创建表数据类型基本数据类型Hive数据类型Java 数据类型长度例子TINYINTbyte1字节 有符号整数20SMALINTshort2字节 有符号整数20INTint4字节 有符号整型20BIGINTlong8字节 有符号整数20BOOLEANbooleantrue or false原创 2021-07-11 09:00:09 · 692 阅读 · 0 评论 -
大数据入门--Hive(一)安装
目标在hadoop103上面安装hive最小化安装上传hive安装包,apache-hive-3.1.2-bin.tar.gz解压安装包 tar -zxvf /opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/module/ cd /opt/module/apache-hive-3.1.2-bin/配置环境变量vi /etc/profile添加HIVE_HOME环境变量#HIVE_HOMEexport HIVE_HOME=/opt/m原创 2021-07-07 21:49:23 · 204 阅读 · 2 评论 -
大数据入门--zookeeper(一)--集群搭建与常用指令
Zookeeper单机搭建下载官方安装包#解压tar -zxvf zookeeper-3.4.5.tar.gz -C /opt/module/#配置zoo.conf,只需要将conf/zoo_sample.conf重命名为zoo.conf即可mv conf/zoo_sample.cfg conf/zoo.cfg #启动bin/zkServer.sh start#查询状态bin/zkServer.sh status#停止bin/zkServer.sh stopZookeeper集群搭原创 2021-06-27 17:49:32 · 192 阅读 · 0 评论 -
大数据入门--hadoop(四)--MR案例
案例一:ReduceJoin场景:假设我们现在有两张表数据:商品表和订单表订单表:订单编号 商品ID 购买数量001 01 2 002 01 1003 02 1004 03 2005 04 1商品表:商品ID 商品名称 商品单价01 华为Mate40 599902 华为笔记本 699903 小米笔记本 399904 苹果笔记本 1099905 联想笔记本 7999现在要求我们对两个表进行left join操作解析思路:逆向思考–>Reduce阶段需要让相同的商品原创 2021-06-26 13:02:21 · 697 阅读 · 0 评论 -
大数据入门--hadoop(三)--MR编程
MR相关内容InputFormat(切片和为maptask读取数据)分区(与Reducer的执行数量,自定义分区)排序合并Combiner(快速排序后、第一次归并后、不能影响执行结果,输入kv与输出kv类型一致)分组(第二次归并后,Reducer输入前,自定义分组)切片(InputFormat)类型切片方法getSplitskv方法createRecordReader用途说明TextInputFormatFIF的切片方法LineRecordReader按照块大原创 2021-06-20 19:49:31 · 628 阅读 · 2 评论 -
大数据入门--hadoop(二)--window开发环境与编程入门
得到hadoop的window环境下的编译包配置windows下hadoop环境变量(注意HADOOP_HOME不要有空格、中文)验证环境配置是否成功hadoop version准备开发环境建立maven工程导入maven依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <vers原创 2021-06-19 18:04:28 · 166 阅读 · 2 评论 -
大数据入门--hadoop(一)--分布式集群搭建
准备工作vm建立虚拟机虚拟机配置IP、更改hostname、配置hosts、创建新用户,为新用户增加sudo权限,免密登录暂时参考:以后更新步骤。和我一起学Hadoop(一)hadoop组成hdfsnamenodedatanodesecondary namenodemapreduceapp mastercontaineryarnresource mangernode manager集群模式Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式原创 2021-06-14 13:10:47 · 557 阅读 · 0 评论