
大数据
文章平均质量分 94
空指针异常Null_Point_Ex
菜鸡程序员一枚
展开
-
大数据之Spark(二)
Spark与Hive对比数据抽象:RDD、DataFrame(二维表数据结构)SparkSession:在rdd中,程序执行入口对象是SparkContext。SparkSession可用于SparkSQL入口对象,也可用于SparkCore中获取SparkContexthelloworld测试txt文件3,shuxue,91,yuwen,52,yuwen,443,yuwen,64,yuwen,35,yuwen,66,yuwen,3代码df2.show()原创 2024-09-12 09:28:02 · 1206 阅读 · 0 评论 -
大数据之Spark(一)
RDD-弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合RDD特性RDD有分区RDD的分区是RDD数据存储的最小单位,一份RDD数据本质上分割成多个分区(分区是物理概念RDD的方法会作用在其所有分区上RDD之间有依赖关系kv型的RDD可以有分区器(可选)RDD的分区规划会尽量靠近数据所在的服务器尽量走本地读取,避免网络读取。原创 2024-09-12 09:07:30 · 1568 阅读 · 0 评论 -
大数据之Flink(六)
17、Flink CEP17.1、概念17.1.1、CEPCEP是“复杂事件处理(Complex Event Processing)”的缩写;而 Flink CEP,就是 Flink 实现的一个用于复杂事件处理的库(library)。总结起来,复杂事件处理(CEP)的流程可以分成三个步骤:(1) 定义一个匹配规则(2) 将匹配规则应用到事件流上,检测满足规则的复杂事件(3) 对检测到的复杂事件进行处理,得到结果进行输出输入是不同形状的事件流,我们可以定义一个匹配规则:在圆形后面紧跟着三角形原创 2024-09-08 20:45:29 · 1455 阅读 · 0 评论 -
大数据之Flink(五)
15、Flink SQL15.1、sql-client准备启用Hadoop集群(在Hadoop100上)start-all.sh启用yarn-session模式/export/soft/flink-1.13.0/bin/yarn-session.sh -d启动sql-client bin/sql-client.sh embedded -s yarn-sessionsql文件初始化可以初始化模式、环境(流/批)、并行度、ttl、数据库创建文件,可在文件中编写sq原创 2024-09-08 20:40:05 · 1746 阅读 · 0 评论 -
大数据之Flink(四)
11、水位线11.1、水位线概念一般实时流处理场景中,事件时间基本与处理时间保持同步,可能会略微延迟。flink中用来衡量事件时间进展的标记就是水位线(WaterMark)。水位线可以看作一条特殊的数据记录,它是插入到数据流中的一个标记点,主要内容是一个时间戳,用来指示当前的事件时间。一般使用某个数据的时间戳作为水位线的时间戳。水位线特性:水位线是插入到数据流中的一个标记水位线主要内容是一个时间戳用来表示当前事件时间的进展水位线是基于数据的时间戳生成的水位线时间戳单调递增水位线可通过设置原创 2024-09-08 17:34:25 · 1225 阅读 · 0 评论 -
大数据之Flink(三)
9.3、转换算子9.3.1、基本转换算子9.3.1.1、映射map一一映射package transform;import bean.WaterSensor;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;import org.apache.flink.st原创 2024-09-08 12:49:08 · 1387 阅读 · 0 评论 -
大数据之Flink(二)
JobManager是一个Flink集群任务管理和调度的核心,是控制应用执行的主进程,每个应用都有一JobManager。前面两种模式,代码都在客户端上执行,由客户端提交给JobManager,导致客户端需要占用大量网络带宽,加重客户端所在节点的资源消耗。flink执行过程中,每个算子包含一个或多个子任务,这些子任务在不同的线程、不同的物理机或不同容器中执行。假如一个taskManager有三个slot,就会将管理的内存均分成三份,每个slot独占一份,slot不会去争抢资源。slot的数量是最大并行度。原创 2024-09-07 20:45:42 · 1551 阅读 · 0 评论 -
大数据之Flink(一)
flink是一个分布式计算/处理引擎,用于对无界和有界数据流进行状态计算。flink处理流程电商销售:实时报表、广告投放、实时推荐物联网:实时数据采集、实时报警物流配送、服务:订单状态跟踪、信息推送银行、金融:实时结算、风险检测有状态的流式处理用内存的本地状态替代传统的数据库flink核心特点:高吞吐低延迟、结果准确性、精确一次的状态一致性保证、兼容性好、高可用和动态扩展。SQL-最高层语言Table API-声明式领域专用语言。原创 2024-02-26 21:50:55 · 1189 阅读 · 3 评论 -
大数据之flume(一)
flume是一个分布式、高可用、高可靠的海量日志采集、聚合、传输系统,支持在日志系统中定制各种数据发送方从而收集数据,并提供数据简单处理能力并传到各种数据接收方。flume设计原理是基于数据流的,能够将不同数据源的海量日志进行高效收集、聚合、移动、存储,能做到近似实时。自定义拦截器自定义source自定义sink。原创 2024-02-23 14:37:08 · 1045 阅读 · 1 评论 -
Kafka
消息队列一般用于消息的临时存取,遵循先入先出原则。常用的消息中间件:Kafka(大数据领域,性能高)、ActivateMQ、RabbitMQ、RocketMQ等。异步处理系统解耦流量削峰日志处理生产者消费者模型消息队列模式点对点模式每个消息只有一个接收者,发送者和接收者没有依赖性,接收者在成功接收消息后需向队列应答成功。发布/订阅模式每个消息有多个订阅者,发布者和订阅者在时间上有依赖性。某主题的订阅者,必须先创建订阅者才能消费消息。原创 2024-02-09 13:02:14 · 838 阅读 · 1 评论 -
HBase
Phoenix让Hadoop支持OLTP和业务操作分析。可提供标准的SQL以及完备的ACID事务支持。Phoenix通过协处理器在服务端执行操作。Phoenix是基于HBase进行的扩展,核心是一些Phoenix开头的jar包,这些jar包实现了很多协处理器(执行put/get/delete这些操作的时候可以执行一段特殊代码)原创 2024-02-09 12:56:57 · 1014 阅读 · 1 评论 -
Zookeeper
Zookeeper是一个树形目录服务,是一个基于观察者模式设计的分布式、开源应用程序协调服务,可存储数据和接受注册。一旦数据发生变化,Zookeeper负责通知已注册的节点。主要功能:配置管理、分布式锁、集群管理Zookeeper:一个leader和多个follower组成集群Zookeeper集群中有半数以上节点正常,即可提供服务,适合奇数台服务器。全局数据一致:Zookeeper保存一份相同的副本。更新请求顺序执行,来自同一个Client的请求按发送顺序执行。数据更新原子性。原创 2024-02-09 12:50:52 · 1156 阅读 · 1 评论 -
Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop实现了一个分布式文件系统分布式文件系统/1250388?fromModule=lemma_inlink( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;原创 2024-02-08 23:07:03 · 1001 阅读 · 0 评论 -
大数据之HDFS
Hadoop 分布式文件系统 ( HDFS ) 是一种分布式文件系统,设计用于在商用硬件上运行。它与现有的分布式文件系统有许多相似之处。然而,与其他分布式文件系统的区别是显着的。HDFS 具有高度容错性,旨在部署在低成本硬件上。HDFS 提供对应用程序数据的高吞吐量访问,适合具有大型数据集的应用程序。HDFS 放宽了一些 POSIX 要求,以支持对文件系统数据的流式访问。HDFS 最初是作为 Apache Nutch Web 搜索引擎项目的基础设施而构建的。原创 2024-02-08 23:09:13 · 890 阅读 · 0 评论 -
大数据之MapReduce(MR)
MapReduce是一个分布式计算框架。思想:将复杂问题分解成若干规模较小的部分,对每个部分进行逐个解决,再将每部分的结果进行合并得到最终结果。原创 2024-02-08 23:10:05 · 898 阅读 · 0 评论 -
大数据之Yarn
yarn是一种hadoop资源管理器,一个大数据通用的资源(cpu、内存)管理系统和调度(规则、算法)平台,可为上层提供统一的资源管理和调度,官方架构图如下:三大组件**:ResourceManager、NodeManager、ApplicationMaster**其他组件:**client、container。原创 2024-02-08 23:26:22 · 438 阅读 · 0 评论 -
Hive数仓
OLAP分析一般需要设计数据立方体,立方体由分析的维度(dimension)、层级(level)和指标(metric)来定义,支持上卷(roll-up)、钻取(drill-down)、切片(slicing)和切块(dicing)等分析操作。Hive是建立在Hadoop上的开源数据仓库,可将Hadoop文件中的结构化、半结构化数据文件映射成数据库表,并提供查询模型(HQL),方便访问和分析。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。原创 2024-02-08 23:30:14 · 1656 阅读 · 6 评论