- 博客(69)
- 收藏
- 关注

原创 JAVA基础导航
文章目录JAVA基础导航JAVA基础导航链接: 1.Java基本知识点链接: 2.Java中运算符与流程控制语句链接: 3.1Java常用类(上)链接: 3.2Java常用类(下)链接: 4.Java中的数组链接: 5.Java中的方法链接: 6.1Java面向对象(上)链接: 6.2Java面对对象(下)链接: 6.3Java面对对象(下))链接: 7.Java中的集合链...
2020-03-30 17:21:06
530
原创 Flink1.13-java版教程(高阶2)
在流处理中,数据是连续不断到来和处理的。每个任务进行计算处理时,可以基于当前数据直接转换得到输出结果;也可以依赖一些其他数据。这些由一个任务维护,并且用来计算输出结果的所有数据,就叫作这个任务的状态。接下来我们的重点就是托管状态(Managed State)。我们知道在 Flink 中,一个算子任务会按照并行度分为多个并行子任务执行,而不同的子任务会占据不同的任务槽(task slot)。由于不同的 slot 在计算资源上是物理隔离的,所以 Flink能管理的状态在并行任务间是无法共享的,每个状态
2022-06-08 11:30:18
380
原创 Flink1.13-java版教程(高阶1)
文章目录第 7 章 处理函数7.1 基本处理函数(ProcessFunction)7.1.1 处理函数的功能和使用7.1.2 ProcessFunction 解析7.1.3 处理函数的分类示例:7.2 按键分区处理函数(KeyedProcessFunction)7.2.1 定时器(Timer)和定时服务(TimerService)7.2.2 KeyedProcessFunction 的使用ProcessingTimeTest示例:EventTimeTimerTest示例:7.4 应用案例——Top N7.4
2022-06-06 10:00:01
317
原创 Flink1.13-java版教程(核心)
文章目录第五章 DataStreamAPI(基础篇)5.1 执行环境(Execution Environment)5.1.1 创建执行环境1.getExecutionEnvironment2.createLocalEnvironment3.createRemoteEnvironment5.1.2 执行模式(Execution Mode)5.2 源算子(Source)5.3 转换算子(Transformation)5.4 输出算子(Sink)5.5 本章总结第六章 Flink中的时间和窗口第五章 DataS
2022-05-31 15:13:28
566
原创 Flink1.13-java版教程(基础)
文章目录课程结构导航第一章 Flink简介1.Flink起源与设计理念2.Flink在企业的应用3.Flink的优势4.数据处理框架的演变5.流处理的应用场景6.Flink分层API7.Flink与Spark的区别第二章 Flink快速上手1.环境准备2.创建maven项目2.1 创建项目2.2 创建项目添加项目依赖2.3 配置日志管理3.编写代码3.1 批处理DataSet api(从1.12开始官方不再推荐使用DataSet api)3.2 流处理DataStream api(推荐使用批流处理api)3
2022-05-17 13:41:00
689
1
原创 Oracle 基础
Oracle学习笔记1.什么是oracle数据库1.1 数据文件(.DBF)1.2 控制文件(.CTL)1.3 日志文件(.LOG)2.什么是Oracle实例3.Oracle实例与数据库关系4.Oracle版本5.安装Oracle 11g6.卸载Oracle7.Oracle 目录结构与系统用户7.1 Oracle 目录结构7.1.1 admin 目录7.1.2 cfgtoollogs 目录7.1.3 checkpoints 目录7.1.4 diag 目录7.1.5 flash_recovery_area(闪
2022-04-15 10:57:22
678
原创 clickhouse 入门 1
文章目录一、clickhouse 入门1.clickhouse 特点1.1 列式存储1.2 DBMS功能1.3 多样化引擎1.4 高吞吐写入能力1.5 数据分区与线程级并行1.6 性能对比2.clickhouse的安装准备工作2.1 确定防火墙处于关闭状态2.2 CentOS 取消打开文件数限制2.3 安装依赖2.4 CentOS 取消 SELINUX3.clickhouse的单机安装3.1 离线rpm手动安装3.2 修改配置文件3.3 启动 Server3.4 集群机器上关闭开机自启3.5 使用 cl
2021-12-14 15:13:17
1035
原创 1 flink基础
文章目录flink基础一、flink简介1.flink是什么2.为什么要用flink3.流处理的发展和演变4.flink特点二、flink快速上手1.pom文件依赖于插件2.批处理wordcount3.流处理wordcount三、flink部署1.standalone模式1.1 安装1.2 web页面任务提交1.3 命令任务提交2.yarn模式2.1 Session-cluster 模式:2.2 Per-Job-Cluster 模式:3.kubernetes部署四、flink运行架构1.Flink 运行时的
2021-12-07 14:51:37
2161
原创 37 大数据项目之电商数仓(权限管理Ranger)
文章目录第 1 章 Ranger 概述第 2 章 Ranger 的安装第 3 章 安装 RangerUsersync第 4 章 安装 Ranger Hive-plugin第 5 章 使用 Ranger 对 Hive 进行权限管理第 6 章 官网其他权限配置第 1 章 Ranger 概述第 2 章 Ranger 的安装第 3 章 安装 RangerUsersync第 4 章 安装 Ranger Hive-plugin第 5 章 使用 Ranger 对 Hive 进行权限管理第 6 章 官网其他权限
2020-09-21 15:19:53
308
原创 36 大数据项目之电商数仓(集群监控Zabbix)
文章目录第 1 章 Zabbix 入门1.1 Zabbix 概述1.2 Zabbix 基础架构第 2 章 Zabbix 部署2.1 集群规划2.2 准备工作2.2.1 关闭集群2.2.2 关闭防火墙(3 台节点,已关闭)2.2.3 关闭 SELinux(hadoop102)重启生效2.3 配置 Zabbix yum 源(3 台节点)2.3.1 安装 yum 源2.3.2 修改为阿里云镜像2.4 安装 Zabbix2.5 配置 Zabbix2.5.1 创建 zabbix 数据库2.5.2 导入 Zabbix
2020-09-21 02:40:39
377
原创 34 大数据项目之电商数仓(即席查询之Presto)
第 1 章 Presto1.1Presto 简介1.1.1Presto 概念1.1.2Presto 架构1.1.3Presto 优缺点1.1.4Presto、Impala 性能比较https://blog.youkuaiyun.com/u012551524/article/details/79124532测试结论:Impala 性能稍领先于 Presto,但是 Presto 在数据源支持上非常丰富,包括Hive、图数据库、传统关系型数据库、Redis 等。1.2Presto 安装1.2.1Pr
2020-09-18 15:40:02
469
原创 36 大数据项目之电商数仓(即席查询之Kylin)
第 1 章 Presto1.1Presto 简介第 2 章 Druid第 3 章 Kylin3.0 前置知识2^n-1各角度selectlocationtypesum(money)from tbgroup by location,typeOLAP类型3.1 Kylin 简介3.1.1 Kylin 定义3.1.2 Kylin 架构3.1.3 Kylin 特点3.2 Kylin 安装3.2.1 Kylin 依赖环境hbase参考文档安装3.2
2020-09-18 12:41:29
602
原创 33 大数据项目之电商数仓(电商数据仓库系统)
文章目录第 1 章 数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范第 2 章 数仓理论2.1 范式理论2.2 关系建模与维度建模2.3 维度表和事实表(重点)2.4 数据仓库建模(绝对重点)第 3 章 数仓搭建-ODS 层3.1 创建数据库3.2 ODS 层(用户行为数据)3.3 ODS 层(业务数据)第 4 章 数仓搭建-DWD 层4.1 DWD 层(用户行为启动表数据解析)4.2 DWD 层(用户行为事件表数据解析)4.3 DWD 层(用户行为事件表获取)4.4 DWD
2020-09-14 14:12:43
4064
原创 32 大数据项目之电商数仓(业务数据采集平台)
文章目录第 1 章 电商业务简介1.1 电商业务流程1.2 电商常识(SKU、SPU)1.3 电商业务表结构1.3.1 订单表(order_info)1.3.2 订单详情表(order_detail)1.3.3 SKU 商品表(sku_info)1.3.4 用户表(user_info)1.3.5 商品一级分类表(base_category1)1.3.6 商品二级分类表(base_category2)1.3.7 商品三级分类表(base_category3)1.3.8 支付流水表(payment_info)1
2020-08-26 17:54:30
768
原创 31 大数据项目之电商数仓(用户行为数据采集)
文章目录第1章 数据仓库概念第2章 项目需求2.1 项目需求分析第1章 数据仓库概念第2章 项目需求2.1 项目需求分析
2020-08-19 17:53:44
1337
原创 数据结构1 稀疏数组
文章目录package com.scy.sparsearray;import java.io.*;public class SparseArray { /** * 数据结构:稀疏数组对应五子棋 * @param args */ public static void main(String[] args) throws FileNotFoundException { //创建一个原始的二维数组11*11 //0表示没有棋子
2020-08-19 01:21:38
107
原创 28 sparkSQL
文章目录28 sparkSQL1.sparkSQL的概述2.RDD以及df以及ds3.dataframe的创建以及操作4.dataset介绍5.编程方式实现sparkSQL查询6.数据源7.sparkSQL当中的分析函数8.sparkSQL当中的自定义函数28 sparkSQL1.sparkSQL的概述什么是Spark SQL结构化:mysql当中的表,字段个数一定,字段的类型也一定了半结构化:类似于xml或者json非结构化:类似于音频或者视频sparkCore ==> RD
2020-08-03 17:55:14
261
原创 27 spark 核心模块RDD
文章目录27 spark 核心模块RDD1.RDD基本概念2.RDD的创建以及操作方式3.RDD常用算子操作练习4.通过spark实现点击流日志分析案例5.通过Spark实现ip地址查询6.RDD的依赖关系7.RDD的缓存8.DAG的生成以及shuffle的过程9.Spark任务调度10.RDD容错机制之checkpoint11.Spark运行架构12.数据读取与保存主要方式27 spark 核心模块RDD1.RDD基本概念rdd:弹性分布式数据集 Resilient Distributed D
2020-07-29 17:36:26
619
原创 26 spark 基础
文章目录26 spark1.spark概述1.1 为什么要学Spark1.2 spark特点2.spark的架构模块2.1 spark的主要架构模块介绍3.spark的运行模式4.spark的重新编译4.1 第一步:下载spark的源码4.2 第二步:准备linux环境,安装必须软件4.3 第三步:解压spark源码,修改配置,准备编译4.4 第四步:开始编译5.spark的集群环境安装搭建5.1 spark local模式运行环境搭建5.2 spark的standAlone模式5.3 spark的HA模式
2020-07-24 16:33:38
208
原创 25 scala 进阶
文章目录scala 进阶1.高阶函数1.1 函数作为参数的函数1.2 匿名函数1.3 高阶函数1.4 参数类型推断1.5 闭包与柯里化2.scala当中的类3.scala当中的对象4.scala当中的继承5.scala当中的特质trait6.模式匹配和样例类7.scala当中的类型参数(了解)8.scala当中的Actor并发编程9.scala当中的文件操作和网络请求10.隐式转换和隐式参数11.scala编程实战scala 进阶1.高阶函数1.1 函数作为参数的函数使用函数作为参数的方法,叫做高阶
2020-07-20 17:11:30
350
原创 24 Scala 基础
文章目录Scala1.课程目标目标1:熟练使用scala编写Spark程序目标2:动手编写一个简易版的Spark通信框架目标3:为阅读Spark内核源码做准备2.Scala的基本介绍2.1 什么是Scala2.2 为什么要学Scala3.Scala编译器安装3.1 安装JDK3.2 安装Scala3.3 安装IDEA中Scala插件3.4 创建项目测试Scala开发4.Scala基础4.1 scala当中申明值和变量4.2 块表达式4.3 scala当中常用数据类型4.3 条件表达式Scala1.课程目
2020-07-16 12:07:20
387
原创 23 hbase(下)
文章目录hbase(下)一、hbase与MR的集成需求一:读取myuser这张表当中的数据写入到HBase的另外一张表当中去第一步:创建myuser2这张表第二步:创建maven工程,导入jar包第三步:开发MR的程序二、hbase与hive集成三、hbase与sqoop集成四、hbase的预分区五、hbase的rowkey设计技巧六、hbase协处理器七、hbase的二级索引介绍八、hbase整合hue九、hbase调优hbase(下)一、hbase与MR的集成HBase与MR的集成需求:读取HB
2020-07-01 17:08:29
211
原创 22 hbase(上)
文章目录hbase1、HBase的基本介绍2、hbase与hadoop的关系3、RDBMS与HBase对比4、HBase的简要特征5、hbase的架构6、HBase的集群环境搭建第一步:下载对应的HBase的安装包第二步:压缩包上传并解压第三步:修改配置文件第四步:安装包分发到其他机器第五步:三台机器创建软连接第六步:三台机器添加HBASE_HOME的环境变量第七步:HBase集群启动第八步:页面访问hbase1、HBase的基本介绍hbase是大数据领域里面一个nosql的非关系型的数据局谷歌的三
2020-06-29 16:03:52
1521
4
原创 21 大数据框架总结
文章目录21 大数据框架总结离线1、zookeeper2、hadoop3、hive4、flume5、sqoop6、azkaban: 任务调度工具 自己会使用就行7、oozie: 完全替代azkaban8、impala: 完全替代hive 比较消耗内存,官方建议内存128GB起步9、hue:管理工具,主要与其他的各种框架进行整合实时1、redis2、hbase3、ELK:elasticse 全文检索框架,也是类似于一个数据库数据库:4、kafka软件框架之间依赖关系21 大数据框架总结离线1、zoo
2020-06-28 16:24:10
407
原创 20 redis下载
文章目录20 redis下载redis安装step1:下载step2:解压step3:进⼊redis⽬录编译redis配置redis命令20 redis下载redis安装step1:下载wget http://download.redis.io/releases/redis-3.2.8.tar.gzstep2:解压tar -xzvf redis-3.2.8.tar.gz -C ../servers/step3:进⼊redis⽬录编译cd /export/servers/redis-3.2
2020-06-28 15:48:59
206
原创 19 kafka消息队列
文章目录19 kafka消息队列3、消息队列的应用场景4、消息队列的两种模式5、kafka的基本介绍6、kafka的架构介绍7、kafka架构内部细节剖析19 kafka消息队列1、消息队列基本介绍消息:在应用系统之间,传递的数据叫做消息队列:排队的模型 先进先出 类似于火车进隧道消息(Message)是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,有消息
2020-06-23 11:38:09
524
原创 18 hadoop基础环境增强(HA)
文章目录hadoop基础环境增强hadoop基础环境增强Hadoop High Availabilityhadoop的ha模式:一般实际工作当中都要求我们的任务 7 *24 小时的可用伪分布模式下,只有一个namenode,只有一个resourceManager通过高可用,可以解决我们主节点单机故障的问题2.x当中namenode最多两个resourceManager最多两个一般ha都有active节点和standby节点如果active节点挂掉之后,standby节点需要马上切换为a
2020-06-22 17:35:29
510
原创 17 oozie框架使用
文章目录17 oozie框架使用1.oozie介绍2.oozie安装第一步:修改core-site.xml第二步:上传oozie的安装包并解压第三步:解压hadooplibs到与oozie平行的目录第四步:创建libext目录第五步:拷贝依赖包到libext第六步:添加ext-2.2.zip压缩包第七步:修改oozie-site.xml第八步:创建mysql数据库第九步:上传oozie依赖的jar包到hdfs上面去第十步:创建oozie的数据库表第十一步:打包项目,生成war包第十二步:配置oozie的环境
2020-06-19 14:47:56
279
原创 16 hue框架使用
文章目录16 hue框架使用1.hue介绍2.hue安装第一步:下载Hue的压缩包并上传到linux解压第二步:编译安装启动16 hue框架使用1.hue介绍HUE=Hadoop User Experience主要用于与我们其他各个框架进行整合,例如hdfs,mapreduce,hive,impala,oozie,spark整合完成之后,只需要在我们hue这一个框架提供的web界面里面就可以操作我们所有其他的框架HUE链接Site: http://gethue.com/Github: htt
2020-06-18 13:53:27
591
原创 15 数据仓库工具impala
文章目录15 数据仓库工具impalaimpala介绍impala与hive关系impala的优点impala的缺点:impala安装15 数据仓库工具impalaimpala介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine、Pregel、Dremel)当中的Dremel实现而来,其
2020-06-12 15:29:36
1237
原创 14 结果导出与工作流调度
文章目录14 结果导出与工作流调度1.结果导出1.第一步:创建mysql数据库以及对应的数据库表2.第二步:通过sqoop命令来进行导出2.工作流的调度:3.echarts数据可视化14 结果导出与工作流调度1.结果导出1.第一步:创建mysql数据库以及对应的数据库表/*SQLyog Ultimate v8.32 MySQL - 5.6.22-log : Database - weblog****************************************************
2020-05-19 17:47:07
345
原创 13 数据仓库的设计与ETL开发
文章目录13 数据仓库的设计一、维度建模的基本概念二、维度建模的三种方式三、本项目中数据仓库的设计事实表设计维度表设计数据仓库ETL开发hive数据库建表以及加载数据hive数据表的拆分13 数据仓库的设计一、维度建模的基本概念维度表:时间的维度:昨天 地点:星巴克 金钱的维度:两百块 维度表看到的事情比较狭窄,仅仅从某一个方面来看,只能看得到某一块的东西事实表:昨天我...
2020-05-06 17:53:33
760
原创 12 网站点击流日志数据分析系统
文章目录12 网站点击流日志数据分析系统12 网站点击流日志数据分析系统点击流数据:关注的是用户访问网站的轨迹,按照时间来进行先后区分基本上所有的大型网站都有日志埋点通过js的方式,可以获取到你再网站上面点击的所有的链接,按钮,商品,等等,包括你访问的url的链接等等js埋点,谁来做???专业的前端来做的埋点收集的数据,都发送到日志服务器 一条日志大概1Kb来算数据全部在日志服务器...
2020-04-29 17:57:40
769
原创 11 辅助系统框架之sqoop数据迁移
文章目录11 辅助系统框架之sqoop数据迁移1.概述2.sqoop1与sqoop2架构对比3.工作机制4.sqoop实战及原理4.1 sqoop安装1、下载并解压2、修改配置文件3、加入额外的依赖包4、验证启动5.Sqoop的数据导入11 辅助系统框架之sqoop数据迁移1.概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,O...
2020-04-24 15:02:17
258
原创 10 辅助系统框架之azkaban
文章目录10 辅助系统框架之azkaban1.概述为什么需要工作流调度系统工作流调度实现方式常见工作流调度系统与各种调度工具特性对比Azkaban与Oozie对比2.Azkaban介绍Azkaban的架构3.Azkaban 安装部署azkaban的编译编译之后需要的安装文件列表如下azkaban单服务模式安装与使用azkaban两个服务模式安装1)确认所需软件:2)数据库准备:3)解压软件安装包:...
2020-04-23 15:17:07
225
原创 09 辅助系统框架之flume
文章目录09 辅助系统框架之flume1、flume介绍2、flume安装与测试第一步:下载解压修改配置文件第二步:开发配置文件第三步:启动配置文件第四步:安装telent准备测试3、采集案例09 辅助系统框架之flume1、flume介绍概述:flume是一个分布式的日志采集的工具,说白了就是用来采集数据的工具可以从文件,文件夹,http协议等都能各个地方使用比较简单,配置即可fl...
2020-04-22 13:34:02
241
原创 08 离线项目开发流程
文章目录08 离线项目开发流程08 离线项目开发流程数据种类以及如何到达hdfs文件系统:日志文件数据:flume数据采集工具数据库数据:sqoop数据导入导出工具爬虫数据:api接口写入数据api网关买入数据:api接口写入数据...
2020-04-22 11:17:18
329
原创 07 数据仓库工具hive
文章目录数据仓库工具hive一、数据仓库的概念1、什么是数据仓库2、数据仓库的主要特征3、 数据仓库与数据库区别二、hive的基本概念以及hive的安装三、hive基本操作四、hive的shell参数五、hive函数六、hive的数据压缩七、hive的数据存储格式八、存储和压缩结合九、调优十、hive语句综合练习数据仓库工具hive一、数据仓库的概念什么是数据仓库,主要用来干嘛的1、什么是...
2020-04-19 03:12:50
534
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人