JLUBJTU-优快云博客

原创文章目录一览表

文章目录快速掌握Maven快速Linux学习（常用命令）快速掌握ShellHadoop基础大数据之HDFS快速掌握大数据之HDFSMapReduce详细分析大数据之资源调度器YarnHadoop HA高可用详细用法大数据技术Zookeeper环境搭建史上最全的Hive知识点总结Kafka所有重要知识点Scala知识点大全史上最详细的HashMap总结MySQL面试题汇总MySQL索引redis...

2020-07-21 21:34:31 318

转载 2021-10-12

HIVE SQL 教程https://www.gairuo.com/p/hive-sql-tutorial

2021-10-12 19:13:37 186

原创 clickhouse简介及应用

一、Clickhouse的特点Clickhouse采用列式存储：列式储存的好处：1 对于列的聚合，计数，求和等统计操作原因优于行式存储。2 由于某一列的数据类型都是相同的，针对于数据存储更容易进行数据压缩，每一列选择更优的数据压缩算法，大大提高了数据的压缩比重。3 由于数据压缩比更好，一方面节省了磁盘空间，另一方面对于cache也有了更大的发挥空间。多样化引擎clickhouse和mysql类似，把表级的存储引擎插件化，根据表的不同需求可以设定不同的存储引擎。

2020-08-10 23:50:03 3586

原创 Flink笔记

文章目录一、Flink简介1、Flink概念2、Flink特点3、Flink 和 Spark Streaming4、Flink on Yarn二、Flink运行架构1、Flink运行时的组件2、任务提交流程3、一些概念三、Flink流处理API1、Environment2、Source3、Transform4、Sink5、实现UDF函数2、富函数（Rich Functions）四、Flink中的Window1、window概述2、类型3、window的API五、时间语义与Wartermark1、时间语义2、

2020-08-10 19:50:10 903

原创 ElasticSearch入门学习

文章目录一、elasticsearch简介1、elasticSearch的使用场景2、与其他数据存储进行比较3、elasticsearch的特点3.1天然分片，天然集群3.2天然索引lucene 倒排索引结构二、elasticsearch的基本概念1、对象名词解释2、服务状态查询三、DSL语法四、关于shard的划分注意点1 shard太多带来的危害2 如何规划shard数量3 对Segment(段)的优化一、elasticsearch简介 ElasticSearch是一个基于Lucene的搜索服

2020-08-06 22:49:28 384

转载计算机网络知识点

文章目录**1. OSI、TCP/IP、五层协议的体系结构？**2. IP地址的分类3. TCP与UDP的区别？4. TCP如何实现数据的可靠性？5. TCP协议如何提高传输效率？6. 三次握手和四次挥手全过程6.1 三次握手6.2 四次挥手7. TCP协议段格式与UDP协议段格式8. 在浏览器中输入一个www.baidu.com后执行的全部过程？8.1 域名解析8.2 建立TCP连接8.3 发起http请求8.4 **服务器响应http请求，浏览器得到html代码**8.5 **浏览器解析html代码，并

2020-07-30 23:46:03 451

原创 OLTP和OLAP的区别

数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，它用于支持企业或组织的决策分析处理。数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库，对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transact

2020-07-28 19:20:00 193

原创 MySQL面试题汇总

文章目录1、数据库三大范式是什么2、Char和VarChar的区别3、引擎相关4、使用索引查询一定能提高查询的性能吗？为什么5、事物的四大特性(ACID)介绍一下?6、什么是脏读？幻读？不可重复读？7、什么是事务的隔离级别？MySQL的默认隔离级别是什么？8、隔离级别与锁的关系9、按照锁的粒度分数据库锁有哪些？锁机制与InnoDB锁算法10、什么是死锁？怎么解决？11、数据库的乐观锁和悲观锁是什么？怎么实现的？1、数据库三大范式是什么第一范式：每个列都不可以再拆分。第二范式：在第一范式的基础上，非主键

2020-07-21 21:10:41 441

原创 redis学习记录

文章目录1、**Redis**介绍2、redis与memcached的区别3、redis五大数据类型4、简单的动态字符串SDS和C语言自带的字符串有什么不同？**SDS的定义****SDS与C字符串的区别**5、redis的过期策略和缓存淘汰机制6、reids的持久化7、Redis的主从复制8、缓存雪崩和缓存穿透1、Redis介绍 redis是一个开源的基于内存的、可持久化的key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(

2020-07-14 20:30:26 429

原创 MapReduce详细分析

一、MapReduce概述1、定义MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。2、MR进程一个完整的MapR educe程序在分布式运行时有三类实例进程:**Mr AppMaster:**负责整个程序的过程调度及状态协调。MapTask:负责Map阶段的整个数据处理流程。ReduceTask:负责Reduce阶段的整个数据处理流程。3、常用数据序列化类型Java****类型Hadoop

2020-07-01 10:19:22 1492

原创 MySQL索引

文章目录1、索引的本质2、索引的类型3、索引的创建方式4、索引的使用场景5、创建索引的原则6、索引的数据结构⭐7、MySQL的引擎1、索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构。索引是一种特殊的文件(InnoDB数据表上的索引是表空间的一个组成部分)，它们包含着对数据表里所有记录的引用指针。索引是一种数据结构。数据库索引，是数据库管理系统中一个排序的数据结构，以协助快速查询、更新数据库表中数据。索引的实现通常使用B树及其变种B+树。更通俗的说，索引就相当于目录。为了方便查找书中的

2020-06-27 23:00:06 305

原创 Hbase最全指南

文章目录一、 Hbase简介1、Hbase 定义2、 Hbase的数据模型3、 Hbase 的基本架构二、Hbase核心1、写流程2、MemStore Flush3、读流程4、BloomFilter5、StoreFile Compaction6、Region Split三、HBase预分区和RowKey设计⭐1、 HBase预分区2、 RowKey设计3、列族设计原则四、HBase的优化方法1、减少调整2、减少启停3、减少数据量4、 **Zookeeper会话超时时间**5、**优化HStore文件

2020-06-23 20:50:48 1044

原创 Flume的使用技巧

1、Flume概述Flume是一个分布式的海量日志采集、聚合和传输的系统。Flume的主要的作用就是，实时的读取服务器本地磁盘的数据，将数据写入到HDFS。Agent：将数据以事件的形式从源头送至目的地。包括Source、Channel、Sink。Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、Taildir 、sequence gener

2020-06-04 22:58:40 426

原创史上最全的Hive知识点总结

一、Hive的基本概念1、Hive是什么Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序（1）Hive处理的数据存储在HDFS（2）Hive分析数据底层的实现是MapReduce（3）执行程序运行在Yarn上（4）Hive不是数据库2、Hive架构元数据：Metastore元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的

2020-06-04 22:27:03 4394

原创 Scala知识点大全

一、变量、数据类型、运算符1.1语法声明变量的类型在变量名之后等号之前声明。var | val 变量名：变量类型 = 变量值变量的类型如果能够通过变量值推断出来，那么可以省略类型声明1.2 变量初始化Scala语法中，必须显示进行初始化操作。1.3 可变变量& 不可变变量值可以改变的变量，称之为可变变量，但是变量类型无法发生改变, Scala中可变变量使用关键字var进行声明值一旦初始化后无法改变的变量，称之为不可变变量。Scala中不可变变量使用关键字val进行声明,

2020-06-03 23:15:13 501 1

原创快速掌握大数据之HDFS

一、HDFS概述HDFS的定义HDFS的特点：优点：①高容错②适合处理大数据③可运行在廉价的机器上。缺点：①不适合低延时的数据处理②无法高效的对小文件进行存储③不支持并发的写入，文件的随机修改HDFS的组成HDFS 的文件块大小：HDFS中文件在物理上是分块存储的，块的大小可以灵活配置。Hadoop3中默认是128M。二、HDFS的常用Shell命令基本语法：hadoop fs 具体命令或 hdfs dfs 具体命令——两者作用相同。①启动集群：start-d

2020-05-19 23:00:58 359

原创快速掌握Shell

一、Shell中的变量脚本以#!/bin/bash开头（指定解析器）1、系统变量HOME、HOME、HOME、PWD、$SHELL等2、自定义变量（1）定义变量：变量=值（2）撤销变量：unset 变量（3）声明静态变量：readonly变量，注意：不能unset变量定义规则（1）变量名称可以由字母、数字和下划线组成，但是不能以数字开头，环境变量名建议大写。（2）等号两侧不能有空格（3）在bash中，变量默认类型都是字符串类型，无法直接进行数值运算。（4）变量的值如果有空格，需要使用

2020-05-18 22:46:28 222

原创快速掌握Maven

一、Maven基本概念1、概念Maven是一款自动化构建工具，专注服务于Java平台的项目构建和依赖管理。构建的环节：清理–>编译–>测试–>报告–>打包–>安装–> 部署2、本地仓库的配置主要配置apache-maven-3.2.2\conf\settings.xml文件。以及准备好的仓库位置配置阿里云镜像：<mirror> <id>nexus-aliyun</id> <mirrorOf>c

2020-05-18 22:45:35 246

原创快速Linux学习（常用命令）

Linux学习1、VI/VIM编辑器一般模式语法功能描述yy复制光标当前一行y数字y复制一段（从第几行到第几行）p箭头移动到目的行粘贴u撤销上一步dd删除光标当前行d数字d删除光标（含）后多少行x删除一个字母，相当于delX删除一个字母，相当于Backspaceyw复制一个词dw删除一个词shift+^移动到行头shift+$移动到行尾1+shift+g移动到页头，数字shift

2020-05-18 22:43:01 355

原创 Kafka所有重要知识点

一、Kafka的基本架构Kafka是一个分布式的基于发布/订阅模式的消息队列，（1）Producer ：消息生产者，就是向kafka broker发消息的客户端；（2）Consumer ：消息消费者，向kafka broker取消息的客户端；（3）Consumer Group （CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。（4）Brok

2020-05-08 21:37:01 672 1

原创大数据之HDFS

一、HDFS概述HDFS的定义HDFS的特点：优点：①高容错②适合处理大数据③可运行在廉价的机器上。缺点：①不适合低延时的数据处理②无法高效的对小文件进行存储③不支持并发的写入，文件的随机修改HDFS的组成HDFS 的文件块大小：HDFS中文件在物理上是分块存储的，块的大小可以灵活配置。Hadoop3中默认是128M。二、HDFS的常用Shell命令基本语法：...

2020-04-28 22:47:58 481

原创大数据之资源调度器Yarn

1、Yarn的基本架构Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2、Yarn的工作原理可以将上图描述为：（1）MR程序提交到客户端所在的节点。（2）YarnRunner向ResourceManager申请一个Appli...

2020-04-25 22:49:24 602

原创 Hadoop基础

一、基础了解1、Hadoop的优势①高可靠性：Hadoop底层维护多个数据副本，所以即使是Hadoop某个计元素或存储出现故障，也不会导致数据的丢失。②高扩展性：在集群间分配任务，可以方便的扩展数以千计的节点。③高效性:Hadoop是并行工作。④高容错：能够自动将失败的任务重新分配。2、Hadoop的组成3、HDFS架构①NameNode（NN）：存储文件的元数据，如文件名、文件...

2020-04-23 16:42:13 807

原创大数据技术Zookeeper环境搭建

一、 Zookeeper入门1、概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生了变化，Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应. ...

2020-04-23 11:26:03 619

原创 Hadoop HA高可用详细用法

一 Hadoop HA 概述1）所谓HA（High Availablity），即高可用（7*24小时不中断服务）。2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。3）Hadoop2.0之前，在HDFS集群中NameNode存在单点故障SPOF（Single Points Of Failure）。4）NameNode主要在以下...

2020-04-23 10:22:49 478

原创《实战Java高并发程序设计》读书笔记 1~3

第一章走入并行世界1、你必须知道的几个概念（1）同步（Synchronized）和异步（Asynchronous）同步和异步通常用来形容一次方法调用。同步方法调用一旦开始，调用者必须等到方法调用返回后，才能继续后续的行为。异步方法调用更像一个消息传递，一旦开始，方法调用就会立即返回，调用者就可以继续后续的操作。而异步方法通常会在另外一个线程中“真实”地执行。整个过程，不会阻碍调用者的工...

2020-04-03 21:41:16 183

qq_41378127的博客