- 博客(98)
- 资源 (4)
- 收藏
- 关注
原创 Flink-状态管理
Flink 状态管理有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能:数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。对一个时间窗口内的数据进行聚合分析,分析一个小时内某项指标的75分位或99
2022-01-09 14:42:23
354
原创 最近知识点汇总
最近知识点汇总一:hive调优(一般很少使用)1、HQL执行过程中最耗费资源的是join,减少join的数据量,会对性能有很大的提升,这里注意一定要学会关注执行计划。2、 行列裁剪:查询语句中只查询所需要的的列,忽略其他列,可以减少内存开销和中间表数据存储,ps:小技巧set hive.support.quoted.identifiers=None;select `(lat)?+.+` from ads_sjfx.temp_need_2380_table1_libo_20210906 limit
2021-09-10 17:18:01
211
原创 记一次Sqoop的坑
在使用SQOOP从mysql导入hive表数据时,当想要字段排序order by,此时每个map都会在oder by或者DISTRIBUTE BY命令下执行,这样就会导致每个mapreduce都会执行一遍sqoop导入,进而数据翻倍(-m 倍)
2020-11-11 09:47:07
245
原创 同一条语句hive和impala查询结果不一致
今天跑py程序,第一次数据错乱,字段对应不上:分析原因:测试单独执行,测试单独上传文件,测试hdfs客户端上传文件最后发现,多次写入错误数据,导致该表的元数据出现混乱,即使是hive的内部表,drop掉表后,重新上传文件到hive的相同表名,使用hive查询没问题,一旦使用impala查询依旧有莫条数据出现字段不对应情况,原因大概是元数据刷新问题,hive在将内部表删除后,impala虽然和hive数共享元数据的,但是impala读取到重新上传的数据时,依旧是上一次的错误元数据,导致文件的offset
2020-09-18 19:09:25
2806
1
原创 大数据之Presto&Druid&Kylin
大数据之Presto&Druid&Kylin一:Presto 1、概念 Presto是一个开源的分布式SQL查询引擎, 数据量支持GB到PB字节, 主要用来处理秒级查询的场景。 注意:虽然Presto可以解析SQL, 但它不是一个标准的数据库。 不是MySQL、Oracle的代替品, 也不能用来处理在线事务(OLTP) 。 2、架构 3、Presto优缺...
2020-04-09 20:40:52
4116
原创 大数据项目之电商数仓(用户行为数仓一)
大数据项目之电商数仓(用户行为数仓)一:数仓分层概念1、数据仓库分层: ODS:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不变 DWD:明细数据层,结构和粒度与原始数据保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围数据) DWS:服务数据层,以DWD为基础,进行轻度汇总 ADS层:数据应用层,为各种统计报表提高数据2、数仓命名规范...
2020-04-06 15:56:14
1550
原创 Flink项目之电商实时数据分析(三)
Flink项目之电商实时数据分析(三)本文承接上一篇(二):https://blog.youkuaiyun.com/weixin_38255444/article/details/104820912五:flink实时业务开发maven文件导入<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.ap...
2020-03-12 18:39:53
642
1
原创 Flink项目之电商实时数据分析(二)
Flink项目之电商实时数据分析(二)本文承接上一篇电商实时数据分析(一)https://blog.youkuaiyun.com/weixin_38255444/article/details/104818776四:编写用户浏览记录上报服务编写实体类-⽤用户浏览记录package com.ityouxin.report.bean.user;/*** Created by ityouxin*/...
2020-03-12 15:56:53
415
原创 Flink项目之电商实时数据分析(一)
Flink项目之电商实时数据分析(一)一:项目介绍背景本项⽬目主要⽤用于互联⽹网电商企业中,使⽤用Flink技术开发的⼤大数据统计分析平台,对电商⽹网站的各种⽤用户⾏行行为(访问⾏行行为、购物⾏行行为、点击⾏行行为等)进⾏行行复杂的分析,⽤用统计分析出来的数据,辅助公司中的PM(产品经理理)、数据分析师以及管理理⼈人员分析现有产品的情况,并根据⽤用户⾏行行为分析结果持续改进产品的设计,以...
2020-03-12 14:42:48
1419
原创 大数据技术之Kettle
大数据技术之Kettle一:kettle概述概念:Kettle 是一款开源的 ETL 工具,纯 java 编写,可以在 Window、 Linux、 Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle工程存储方式:XML形式 、资源库方式(数据库和文件资源库)两种设计方式Transformation(转换):完成针对数据的基础转换Job(作业):完成整个工作流...
2020-03-01 16:10:27
437
原创 大数据之电商分析系统(二)
大数据之电商分析系统(二)本文承接上一篇(电商分析系统一)一:项目需求具体实现5-10页面转换率统计 计算页面单跳转化率, 什么是页面单跳转换率, 比如一个用户在一次 Session过程中访问的页面路径 3,5,7,9,10,21,那么页面 3 跳到页面 5 叫一次单跳,7-9 也叫一次单跳,那么单跳转化率就是要统计页面点击的概率,比如: 计算 3-5 的单跳转化率,先获取符合条件的...
2020-02-27 14:13:54
722
原创 大数据之电商分析系统(一)
大数据之电商分析系统(一)一:项目介绍 本项目来源于企业级电商网站的大数据统计分析平台, 该平台以 Spark 框架为核心, 对电商网站的日志进行离线和实时分析。该大数据分析平台对电商网站的各种用户行为( 访问行为、购物行为、广告点击行为等)进行分析,根据平台统计出来的数据, 辅助公司中的 PM(产品经理)、数据分析师以及管理人员分析现有产品的情况, 并根据用户行为分析结果持续改进产品的设计...
2020-02-27 14:13:14
5415
原创 大数据技术之Spark内核解析(二)
大数据技术之Spark内核解析(二)一:Spark的通讯框架Spark通讯框架的概述Spark2.x 版本使用 Netty 通讯框架作为内部通讯组件。 spark 基于 netty 新的 rpc框架借鉴了 Akka 的中的设计,它是基于 Actor 模型, 如下图所示:各组件的关系图 Spark 通讯框架中各个组件( Client/Master/Worker) 可以认为...
2020-02-12 14:35:25
237
原创 大数据技术之Spark 内核解析(一)
大数据技术之Spark 内核解析一:Spark的内核概述Spark 内核泛指 Spark 的核心运行机制, 包括 Spark 核心组件的运行机制、 Spark任务调度机制、 Spark 内存管理机制、 Spark 核心功能的运行原理等, 熟练掌握Spark 内核原理,能够帮助我们更好地完成 Spark 代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。核心组件...
2020-02-12 09:09:17
210
原创 大数据技术之Spark Streaming
大数据技术之Spark Streaming一:概述 1. 定义: Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka,Flume、 Twitter、 ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如: map、 reduce、 join、 window 等进行运算。而结果也能...
2020-02-10 21:30:13
272
原创 大数据技术之Spark SQL
大数据技术之Spark SQL一:Spark SQL的概述定义:Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程对象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。特点:易整合、统一的数据访问方式、兼容Hive、标准的数据连接DtaFrame的定义:与RDD类似,DataFrame也是一个分布式的数据容器。然而Datafra...
2020-02-09 15:12:15
360
原创 大数据技术之Spark Core的RDD(二)
大数据技术之Spark Core的RDD(二)一:双Value类型union(otherDattaset)案例作用:对源RDD和参数RDD求并集后返回一个新的RDD数据集需求:创建两个RDD,并求并集val rdd1 = sc.parallelize(1 to 5)val rdd2 = sc.parallelize(5 to 8)val rdd3 = rdd1.union(rdd...
2020-01-18 13:33:24
277
原创 大数据技术Spark之Spark Core(三)
大数据技术Spark之Spark Core(三)一:actionreduce(func) :作用: 通过 func 函数聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。collect():作用: 在驱动程序中,以数组的形式返回数据集的所有元素。count():作用: 返回 RDD 中元素的个数first():作用:返回RDD中的第一个元素take(n):作用:返回一个由...
2020-01-18 13:30:12
292
原创 Spark Core的RDD算子案例实操
Spark Core的RDD算子案例实操数据结构:时间戳,省份,城市,用户,广告。中间使用空格分隔1516609143867 6 7 64 161516609143869 9 4 75 181516609143869 1 7 87 12需求:统计出每个省=广告被点击次数的TOP3实现过程package com.ityouxin.sparkimport org.apac...
2020-01-18 13:29:32
333
原创 大数据技术之Spark Core的RDD(二)
大数据技术之Spark Core的RDD(二)一:双Value类型union(otherDattaset)案例作用:对源RDD和参数RDD求并集后返回一个新的RDD数据集需求:创建两个RDD,并求并集val rdd1 = sc.parallelize(1 to 5)val rdd2 = sc.parallelize(5 to 8)val rdd3 = rdd1.union(rdd...
2020-01-18 13:28:42
138
原创 大数据技术之SparkCore(一)
大数据技术之SparkCore(一)一:RDD概述RDD定义:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集。是Spark中最基本的数据抽象。代码中是一个抽象类,代表一个不可变、可分区、其中的元素可并行计算的集合。RDD的属性partition:一组分区(partition),即数据集的基本组成单位。Function:每个分区的函数...
2020-01-16 15:45:22
212
原创 Spark基础概论
Spark基础概论Spark定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎Spark的内置模块SparkSQL 结构化数据查询语句SparkStreaming 实时计算框架Spark Milb 机器学习Spark GraghX 图计算Spark core spark的核心引擎Spark Core: 实现了 Spark 的基本功能,包含...
2020-01-16 15:44:44
299
原创 HRegionServer起来后不久就自动挂掉
在时间同步没问题的情况下,HMaster存在,但所有节点的Hregionserver启动后不久自动挂掉,此问题使hbase内部遗留问题,官方还未解决,原因是之前启动hbase失败,导致hdfs中保留了之前失败的元数据,此时将hdfs上hbsae文件夹删除hdoop fs -rm -r /hbase再此重启hbase,使其自己创建新的hbase文件夹就ok...
2019-12-28 20:18:55
1276
3
原创 Hadoop组件之存储系统Hbase的MapReduce(三)
Hadoop组件之存储系统Hbase的MapReduce(三)通过 HBase 的相关 JavaAPI,我们可以实现伴随 HBase 操作的 MapReduce 过程,比如使用MapReduce 将数据从本地文件系统导入到 HBase 的表中,比如我们从 HBase 中读取一些原始数据后使用 MapReduce 做数据分析。官方Hbase-MapReduce1. 查看Hbase的MapR...
2019-12-24 11:05:15
274
1
原创 Hadoop组件之文件存储系统HBase的API操作(二)
Hadoop组件之文件存储系统HBase的API操作(二)环境准备新建项目,在pom.xml文件中添加依赖<dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>2.1.7</...
2019-12-24 11:04:40
161
原创 Hadoop框架之存储系统Hbase(一)
Hadoop框架之存储系统Hbase(一)Hbase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,Hbase特点1)海量存储:Hbase 适合存储 PB 级别的海量数据,在 PB 级别的数据以及采用廉价 PC 存储的情况下,能在几十到百毫秒内返回数据。这与 Hbase 的极易扩展性息息相关。正式因为 Hbase 良好的扩展性,才为海量数据的存储提供了便利。2)列式存储:这里...
2019-12-18 21:37:40
351
原创 MapReduce入门概述
MapReduce入门概述定义:MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。优缺点:优点:易于编程,良好的扩展性,高容错性,海量数据的离线处理缺点:不擅长实时计算...
2019-12-12 11:29:22
108
原创 日志采集框架Flume(二)进阶
日志采集框架Flume(二)进阶Flume事务:flume处理事务的流程分为两个部分(两个事件),数据输入端(Source–Channel端)和数据输出端(Channel—Sink端)。数据输入端:Source将数据从web服务器抓取过来,然后进行doput到putList临时缓冲区,putList是一个队列形式的缓冲区,然后doCommit将putList提交到Channel中,do...
2019-12-05 16:43:44
297
原创 Hive小练习之youtobe影音数据处理
Hive小练习之youtobe影音数据处理一:数据结构1.视频表表 6-13 视频表字段 备注 详细描述video id 视频唯一 id 11 位字符串uploader 视频上传者 上传视频的用户名 Stringage 视频年龄 视频在平台上的整数天category 视频类别 ...
2019-12-02 13:30:30
372
原创 Hive之自定义函数
Hive之自定义函数系统内置函数查看系统内置函数:hive> show functions;显示自带函数的用法:hive> desc function extended upper;附录:Hive运算符及函数介绍自定义函数:用户自定义函数分为三类1)UDF(User-Defined-Function):一进一出2)UDAF(User-Defined A...
2019-11-30 20:57:56
171
原创 Hive数据操作(DQL)查询
Hive数据操作(DQL)查询基本查询:略常用函数1.求总行数(count) hive (default)> select count(*) cnt from emp;2.求工资的最大值(max) hive (default)> select max(sal) max_sal from emp;3.求工资的最小值(min) hive (default)> sel...
2019-11-29 16:26:30
398
原创 Hive的数据库操作(增删改)
Hive的数据库操作(增删改)Hive的基本数据类型Hive 数据类型 Java 数据类型 长度TINYINT byte 1byte 有符号整数SMALINT short 2byte 有符号整数INT int 4byte有符号整数BIGINT long 8byte 有符号...
2019-11-29 16:25:56
2535
原创 Hive两小案例
Hive案例第1题我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218u022017/1/236u012017/2/22...
2019-11-29 10:29:43
436
原创 Hive案例-蚂蚁森林
Hive案例-蚂蚁森林一:蚂蚁森林/*背景说明:以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。table_name:user_low_carbonuser_id data_dt low_carbon用户 日期 减少碳排放(g)*/drop table user_low_carbon;create table user_low_carbon(user_...
2019-11-28 22:22:42
689
原创 Hadoop的数据仓库Hive
Hadoop的数据仓库HiveHive基本概念 由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS 。 2)Hive 分析数据底层的实现是 MapReduce ...
2019-11-24 21:24:19
198
原创 Yarn的多租户配置实现资源隔离
Yarn的多租户配置实现资源隔离资源隔离介绍:资源隔离目前有2种,静态隔离和动态隔离。静态隔离 所谓静态隔离是以服务隔离,是通过cgroups(LINUX control groups) 功能来支持的。动态隔离动态隔离只要是针对 YARN以及impala, 所谓动态只是相对静态来说,其实也不是动态。第一步:hadoop102配置yarn-site.xml<...
2019-11-22 22:22:15
1979
原创 Yarn的资源调度
Yarn的资源调度资源调度器的职能资源调度器是YARN最核心的组件之一,是一个插拔式的服务组件,负责整个集群资源的管理和分配。YARN提供了三种可用的资源调度器:FIFO、Capacity Scheduler、Fair Scheduler资源调度器的分类不同的任务类型对资源有着不同的负责质量要求,有的任务对时间要求不是很高(如Hive),有的任务要求及时返还结果(如HBase),有...
2019-11-22 22:07:16
180
原创 Yarn的ApplicationMaster介绍
Yarn的ApplicationMaster介绍ApplicationMaster基本介绍 ApplicationMaster实际上是特定计算框架的一个实例,每种计算框架都有自己独特的ApplicationMaster,负责与ResourceManager协商资源,并和NodeManager协同来执行和监控Container。MapReduce只是可以运行在YARN上一种计算框架。...
2019-11-22 22:05:46
10814
原创 Yarn的ResourceManager&NodeManager的功能介绍
ResourceManager&NodeManager的功能介绍ResourceManager基本介绍ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个NodeManager的资源汇报信息,并把这些信息按照一定的策略分配给各个ApplicationMaster。RM的职能(1)与客户端交互,处理客户端的请求。(2)启动和管理AM,并在它运行失...
2019-11-22 22:04:37
6118
原创 Yarn的架构和原理
Yarn的架构和原理yarn的简介YARN是Hadoop2引入的通用的资源管理和任务调度的平台,可以在YARN上运行MapReduce、Tez、Spark等多种计算框架,只要计算框架实现了YARN所定义的接口,都可以运行在这套通用的Hadoop资源管理和任务调度平台上。产生背景Hadoop1.0是由HDFS和MapReduce V1组成的,YARN出现之前是MapReduce ...
2019-11-22 22:01:48
253
day1继承.md
2019-08-02
Linux常用命令.md
2019-08-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人