普通网友-优快云博客

原创 JAVA基础导航

文章目录JAVA基础导航JAVA基础导航链接: 1.Java基本知识点链接: 2.Java中运算符与流程控制语句链接: 3.1Java常用类（上）链接: 3.2Java常用类（下）链接: 4.Java中的数组链接: 5.Java中的方法链接: 6.1Java面向对象（上）链接: 6.2Java面对对象(下)链接: 6.3Java面对对象(下))链接: 7.Java中的集合链...

2020-03-30 17:21:06 530

在流处理中，数据是连续不断到来和处理的。每个任务进行计算处理时，可以基于当前数据直接转换得到输出结果；也可以依赖一些其他数据。这些由一个任务维护，并且用来计算输出结果的所有数据，就叫作这个任务的状态。接下来我们的重点就是托管状态（Managed State）。我们知道在 Flink 中，一个算子任务会按照并行度分为多个并行子任务执行，而不同的子任务会占据不同的任务槽（task slot）。由于不同的 slot 在计算资源上是物理隔离的，所以 Flink能管理的状态在并行任务间是无法共享的，每个状态

2022-06-08 11:30:18 380

原创 Flink1.13-java版教程（高阶1）

文章目录第 7 章处理函数7.1 基本处理函数（ProcessFunction）7.1.1 处理函数的功能和使用7.1.2 ProcessFunction 解析7.1.3 处理函数的分类示例：7.2 按键分区处理函数（KeyedProcessFunction）7.2.1 定时器（Timer）和定时服务（TimerService）7.2.2 KeyedProcessFunction 的使用ProcessingTimeTest示例：EventTimeTimerTest示例：7.4 应用案例——Top N7.4

2022-06-06 10:00:01 317

原创 Flink1.13-java版教程（核心）

文章目录第五章 DataStreamAPI（基础篇）5.1 执行环境（Execution Environment）5.1.1 创建执行环境1.getExecutionEnvironment2.createLocalEnvironment3.createRemoteEnvironment5.1.2 执行模式(Execution Mode)5.2 源算子（Source）5.3 转换算子（Transformation）5.4 输出算子（Sink）5.5 本章总结第六章 Flink中的时间和窗口第五章 DataS

2022-05-31 15:13:28 566

原创 Flink1.13-java版教程（基础）

文章目录课程结构导航第一章 Flink简介1.Flink起源与设计理念2.Flink在企业的应用3.Flink的优势4.数据处理框架的演变5.流处理的应用场景6.Flink分层API7.Flink与Spark的区别第二章 Flink快速上手1.环境准备2.创建maven项目2.1 创建项目2.2 创建项目添加项目依赖2.3 配置日志管理3.编写代码3.1 批处理DataSet api(从1.12开始官方不再推荐使用DataSet api)3.2 流处理DataStream api（推荐使用批流处理api）3

2022-05-17 13:41:00 689 1

原创 Oracle 基础

Oracle学习笔记1.什么是oracle数据库1.1 数据文件（.DBF）1.2 控制文件（.CTL）1.3 日志文件（.LOG）2.什么是Oracle实例3.Oracle实例与数据库关系4.Oracle版本5.安装Oracle 11g6.卸载Oracle7.Oracle 目录结构与系统用户7.1 Oracle 目录结构7.1.1 admin 目录7.1.2 cfgtoollogs 目录7.1.3 checkpoints 目录7.1.4 diag 目录7.1.5 flash_recovery_area(闪

2022-04-15 10:57:22 678

原创 clickhouse 入门 1

文章目录一、clickhouse 入门1.clickhouse 特点1.1 列式存储1.2 DBMS功能1.3 多样化引擎1.4 高吞吐写入能力1.5 数据分区与线程级并行1.6 性能对比2.clickhouse的安装准备工作2.1 确定防火墙处于关闭状态2.2 CentOS 取消打开文件数限制2.3 安装依赖2.4 CentOS 取消 SELINUX3.clickhouse的单机安装3.1 离线rpm手动安装3.2 修改配置文件3.3 启动 Server3.4 集群机器上关闭开机自启3.5 使用 cl

2021-12-14 15:13:17 1035

原创 1 flink基础

文章目录flink基础一、flink简介1.flink是什么2.为什么要用flink3.流处理的发展和演变4.flink特点二、flink快速上手1.pom文件依赖于插件2.批处理wordcount3.流处理wordcount三、flink部署1.standalone模式1.1 安装1.2 web页面任务提交1.3 命令任务提交2.yarn模式2.1 Session-cluster 模式：2.2 Per-Job-Cluster 模式：3.kubernetes部署四、flink运行架构1.Flink 运行时的

2021-12-07 14:51:37 2161

原创 37 大数据项目之电商数仓（权限管理Ranger）

文章目录第 1 章 Ranger 概述第 2 章 Ranger 的安装第 3 章安装 RangerUsersync第 4 章安装 Ranger Hive-plugin第 5 章使用 Ranger 对 Hive 进行权限管理第 6 章官网其他权限配置第 1 章 Ranger 概述第 2 章 Ranger 的安装第 3 章安装 RangerUsersync第 4 章安装 Ranger Hive-plugin第 5 章使用 Ranger 对 Hive 进行权限管理第 6 章官网其他权限

2020-09-21 15:19:53 308

原创 36 大数据项目之电商数仓（集群监控Zabbix）

文章目录第 1 章 Zabbix 入门1.1 Zabbix 概述1.2 Zabbix 基础架构第 2 章 Zabbix 部署2.1 集群规划2.2 准备工作2.2.1 关闭集群2.2.2 关闭防火墙（3 台节点，已关闭）2.2.3 关闭 SELinux（hadoop102）重启生效2.3 配置 Zabbix yum 源（3 台节点）2.3.1 安装 yum 源2.3.2 修改为阿里云镜像2.4 安装 Zabbix2.5 配置 Zabbix2.5.1 创建 zabbix 数据库2.5.2 导入 Zabbix

2020-09-21 02:40:39 377

原创 34 大数据项目之电商数仓（即席查询之Presto）

第 1 章 Presto1.1Presto 简介1.1.1Presto 概念1.1.2Presto 架构1.1.3Presto 优缺点1.1.4Presto、Impala 性能比较https://blog.youkuaiyun.com/u012551524/article/details/79124532测试结论：Impala 性能稍领先于 Presto，但是 Presto 在数据源支持上非常丰富，包括Hive、图数据库、传统关系型数据库、Redis 等。1.2Presto 安装1.2.1Pr

2020-09-18 15:40:02 469

原创 36 大数据项目之电商数仓（即席查询之Kylin）

第 1 章 Presto1.1Presto 简介第 2 章 Druid第 3 章 Kylin3.0 前置知识2^n-1各角度selectlocationtypesum(money)from tbgroup by location,typeOLAP类型3.1 Kylin 简介3.1.1 Kylin 定义3.1.2 Kylin 架构3.1.3 Kylin 特点3.2 Kylin 安装3.2.1 Kylin 依赖环境hbase参考文档安装3.2

2020-09-18 12:41:29 602

原创 33 大数据项目之电商数仓（电商数据仓库系统）

文章目录第 1 章数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范第 2 章数仓理论2.1 范式理论2.2 关系建模与维度建模2.3 维度表和事实表（重点）2.4 数据仓库建模（绝对重点）第 3 章数仓搭建-ODS 层3.1 创建数据库3.2 ODS 层（用户行为数据）3.3 ODS 层（业务数据）第 4 章数仓搭建-DWD 层4.1 DWD 层（用户行为启动表数据解析）4.2 DWD 层（用户行为事件表数据解析）4.3 DWD 层（用户行为事件表获取）4.4 DWD

2020-09-14 14:12:43 4064

原创 32 大数据项目之电商数仓（业务数据采集平台）

文章目录第 1 章电商业务简介1.1 电商业务流程1.2 电商常识（SKU、SPU）1.3 电商业务表结构1.3.1 订单表（order_info）1.3.2 订单详情表（order_detail）1.3.3 SKU 商品表（sku_info）1.3.4 用户表（user_info）1.3.5 商品一级分类表（base_category1）1.3.6 商品二级分类表（base_category2）1.3.7 商品三级分类表（base_category3）1.3.8 支付流水表（payment_info）1

2020-08-26 17:54:30 768

原创 31 大数据项目之电商数仓（用户行为数据采集）

文章目录第1章数据仓库概念第2章项目需求2.1 项目需求分析第1章数据仓库概念第2章项目需求2.1 项目需求分析

2020-08-19 17:53:44 1337

原创数据结构1 稀疏数组

文章目录package com.scy.sparsearray;import java.io.*;public class SparseArray { /** * 数据结构：稀疏数组对应五子棋 * @param args */ public static void main(String[] args) throws FileNotFoundException { //创建一个原始的二维数组11*11 //0表示没有棋子

2020-08-19 01:21:38 107

原创 30 Spark内核解析

文章目录Spark内核解析1.2.Spark内核解析1.2.

2020-08-12 13:57:28 155

原创 29 SparkStreaming

文章目录SparkStreaming1.SparkStreaming1.

2020-08-06 17:50:42 296

原创 28 sparkSQL

文章目录28 sparkSQL1.sparkSQL的概述2.RDD以及df以及ds3.dataframe的创建以及操作4.dataset介绍5.编程方式实现sparkSQL查询6.数据源7.sparkSQL当中的分析函数8.sparkSQL当中的自定义函数28 sparkSQL1.sparkSQL的概述什么是Spark SQL结构化：mysql当中的表，字段个数一定，字段的类型也一定了半结构化：类似于xml或者json非结构化：类似于音频或者视频sparkCore ==> RD

2020-08-03 17:55:14 261

原创 27 spark 核心模块RDD

文章目录27 spark 核心模块RDD1.RDD基本概念2.RDD的创建以及操作方式3.RDD常用算子操作练习4.通过spark实现点击流日志分析案例5.通过Spark实现ip地址查询6.RDD的依赖关系7.RDD的缓存8.DAG的生成以及shuffle的过程9.Spark任务调度10.RDD容错机制之checkpoint11.Spark运行架构12.数据读取与保存主要方式27 spark 核心模块RDD1.RDD基本概念rdd：弹性分布式数据集 Resilient Distributed D

2020-07-29 17:36:26 619

原创 26 spark 基础

文章目录26 spark1.spark概述1.1 为什么要学Spark1.2 spark特点2.spark的架构模块2.1 spark的主要架构模块介绍3.spark的运行模式4.spark的重新编译4.1 第一步：下载spark的源码4.2 第二步：准备linux环境，安装必须软件4.3 第三步：解压spark源码，修改配置，准备编译4.4 第四步：开始编译5.spark的集群环境安装搭建5.1 spark local模式运行环境搭建5.2 spark的standAlone模式5.3 spark的HA模式

2020-07-24 16:33:38 208

原创 25 scala 进阶

文章目录scala 进阶1.高阶函数1.1 函数作为参数的函数1.2 匿名函数1.3 高阶函数1.4 参数类型推断1.5 闭包与柯里化2.scala当中的类3.scala当中的对象4.scala当中的继承5.scala当中的特质trait6.模式匹配和样例类7.scala当中的类型参数（了解）8.scala当中的Actor并发编程9.scala当中的文件操作和网络请求10.隐式转换和隐式参数11.scala编程实战scala 进阶1.高阶函数1.1 函数作为参数的函数使用函数作为参数的方法，叫做高阶

2020-07-20 17:11:30 350

原创 24 Scala 基础

文章目录Scala1.课程目标目标1：熟练使用scala编写Spark程序目标2：动手编写一个简易版的Spark通信框架目标3：为阅读Spark内核源码做准备2.Scala的基本介绍2.1 什么是Scala2.2 为什么要学Scala3.Scala编译器安装3.1 安装JDK3.2 安装Scala3.3 安装IDEA中Scala插件3.4 创建项目测试Scala开发4.Scala基础4.1 scala当中申明值和变量4.2 块表达式4.3 scala当中常用数据类型4.3 条件表达式Scala1.课程目

2020-07-16 12:07:20 387

原创 23 hbase（下）

文章目录hbase（下）一、hbase与MR的集成需求一：读取myuser这张表当中的数据写入到HBase的另外一张表当中去第一步：创建myuser2这张表第二步：创建maven工程，导入jar包第三步：开发MR的程序二、hbase与hive集成三、hbase与sqoop集成四、hbase的预分区五、hbase的rowkey设计技巧六、hbase协处理器七、hbase的二级索引介绍八、hbase整合hue九、hbase调优hbase（下）一、hbase与MR的集成HBase与MR的集成需求：读取HB

2020-07-01 17:08:29 211

原创 22 hbase（上）

文章目录hbase1、HBase的基本介绍2、hbase与hadoop的关系3、RDBMS与HBase对比4、HBase的简要特征5、hbase的架构6、HBase的集群环境搭建第一步：下载对应的HBase的安装包第二步：压缩包上传并解压第三步：修改配置文件第四步：安装包分发到其他机器第五步：三台机器创建软连接第六步：三台机器添加HBASE_HOME的环境变量第七步：HBase集群启动第八步：页面访问hbase1、HBase的基本介绍hbase是大数据领域里面一个nosql的非关系型的数据局谷歌的三

2020-06-29 16:03:52 1521 4

原创 21 大数据框架总结

文章目录21 大数据框架总结离线1、zookeeper2、hadoop3、hive4、flume5、sqoop6、azkaban：任务调度工具自己会使用就行7、oozie：完全替代azkaban8、impala：完全替代hive 比较消耗内存，官方建议内存128GB起步9、hue：管理工具，主要与其他的各种框架进行整合实时1、redis2、hbase3、ELK：elasticse 全文检索框架，也是类似于一个数据库数据库：4、kafka软件框架之间依赖关系21 大数据框架总结离线1、zoo

2020-06-28 16:24:10 407

原创 20 redis下载

文章目录20 redis下载redis安装step1:下载step2:解压step3:进⼊redis⽬录编译redis配置redis命令20 redis下载redis安装step1:下载wget http://download.redis.io/releases/redis-3.2.8.tar.gzstep2:解压tar -xzvf redis-3.2.8.tar.gz -C ../servers/step3:进⼊redis⽬录编译cd /export/servers/redis-3.2

2020-06-28 15:48:59 206

原创 19 kafka消息队列

文章目录19 kafka消息队列3、消息队列的应用场景4、消息队列的两种模式5、kafka的基本介绍6、kafka的架构介绍7、kafka架构内部细节剖析19 kafka消息队列1、消息队列基本介绍消息：在应用系统之间，传递的数据叫做消息队列：排队的模型先进先出类似于火车进隧道消息（Message）是指在应用之间传送的数据，消息可以非常简单，比如只包含文本字符串，也可以更复杂，可能包含嵌入对象。消息队列（Message Queue）是一种应用间的通信方式，消息发送后可以立即返回，有消息

2020-06-23 11:38:09 524

原创 18 hadoop基础环境增强（HA）

文章目录hadoop基础环境增强hadoop基础环境增强Hadoop High Availabilityhadoop的ha模式：一般实际工作当中都要求我们的任务 7 *24 小时的可用伪分布模式下，只有一个namenode，只有一个resourceManager通过高可用，可以解决我们主节点单机故障的问题2.x当中namenode最多两个resourceManager最多两个一般ha都有active节点和standby节点如果active节点挂掉之后，standby节点需要马上切换为a

2020-06-22 17:35:29 510

原创 17 oozie框架使用

文章目录17 oozie框架使用1.oozie介绍2.oozie安装第一步：修改core-site.xml第二步：上传oozie的安装包并解压第三步：解压hadooplibs到与oozie平行的目录第四步：创建libext目录第五步：拷贝依赖包到libext第六步：添加ext-2.2.zip压缩包第七步：修改oozie-site.xml第八步：创建mysql数据库第九步：上传oozie依赖的jar包到hdfs上面去第十步：创建oozie的数据库表第十一步：打包项目，生成war包第十二步：配置oozie的环境

2020-06-19 14:47:56 279

原创 16 hue框架使用

文章目录16 hue框架使用1.hue介绍2.hue安装第一步：下载Hue的压缩包并上传到linux解压第二步：编译安装启动16 hue框架使用1.hue介绍HUE=Hadoop User Experience主要用于与我们其他各个框架进行整合，例如hdfs，mapreduce，hive，impala，oozie，spark整合完成之后，只需要在我们hue这一个框架提供的web界面里面就可以操作我们所有其他的框架HUE链接Site: http://gethue.com/Github: htt

2020-06-18 13:53:27 591

原创 15 数据仓库工具impala

文章目录15 数据仓库工具impalaimpala介绍impala与hive关系impala的优点impala的缺点：impala安装15 数据仓库工具impalaimpala介绍impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具，impala是参照谷歌的新三篇论文（Caffeine、Pregel、Dremel）当中的Dremel实现而来，其

2020-06-12 15:29:36 1237

空空如也

空空如也