_小笼包_-优快云博客

原创 DORIS常用函数

其中 json_path 必须以 $ 符号作为开头，使用 . 作为路径分割符。如果路径中包含 . ，则可以使用双引号包围。使用 [ ] 表示数组下标，从 0 开始。开窗函数，分组排序后打行标。

2024-06-13 17:09:54 1446 1

原创 1 - DataX HdfsWriter 插件文档

DataX HdfsWriter 插件文档

2022-08-09 12:30:29 827

Kafka原理leader和followerKafka中的leader和follower是相对分区有意义，不是相对brokerKafka在创建topic的时候，会尽量分配分区的leader在不同的broker中，其实就是负载均衡leader职责：读写数据follower职责：同步数据、参与选举（leader crash之后，会选举一个follower重新成为分区的leader注意和ZooKeeper区分ZK的leader负责读、写，follower可以读取Kafka的leader负责读写

2022-03-21 15:19:20 2534

原创 5-Kafka中的分区副本机制

生产者的分区写入策略轮询（按照消息尽量保证每个分区的负载）策略，消息会均匀地分布到每个partition写入消息的时候，key为null的时候，默认使用的是轮询策略随机策略（不使用）按key写入策略，key.hash() % 分区的数量自定义分区策略（类似于MapReduce指定分区）乱序问题在Kafka中生产者是有写入策略，如果topic有多个分区，就会将数据分散在不同的partition中存储当partition数量大于1的时候，数据（消息）会打散分布在不同的partiti

2022-03-21 15:18:26 1062

原创 4-Kafka中的重要概念

Kafka中的重要概念brokerKafka服务器进程，生产者、消费者都要连接broker一个集群由多个broker组成，功能实现Kafka集群的负载均衡、容错producer：生产者consumer：消费者topic：主题，一个Kafka集群中，可以包含多个topic。一个topic可以包含多个分区是一个逻辑结构，生产、消费消息都需要指定topicpartition：Kafka集群的分布式就是由分区来实现的。一个topic中的消息可以分布在topic中的不同partition

2022-03-21 15:15:31 1744

原创 3-Kafka Java API开发

生产者程序开发创建连接bootstrap.servers：Kafka的服务器地址acks：表示当生产者生产数据到Kafka中，Kafka中会以什么样的策略返回key.serializer：Kafka中的消息是以key、value键值对存储的，而且生产者生产的消息是需要在网络上传到的，这里指定的是StringSerializer方式，就是以字符串方式发送（将来还可以使用其他的一些序列化框架：Google ProtoBuf、Avro）value.serializer：同上创建一个生产者对象K

2022-03-21 15:13:35 182

原创 2-Kafka集群搭建

Kafka集群搭建Kafka集群是必须要有ZooKeeper的注意：每一个Kafka的节点都需要修改broker.id（每个节点的标识，不能重复）log.dir数据存储目录需要配置Kafka的生产者/消费者/工具安装Kafka集群，可以测试以下创建一个topic主题（消息都是存放在topic中，类似mysql建表的过程）基于kafka的内置测试生产者脚本来读取标准输入（键盘输入）的数据，并放入到topic中基于kafka的内置测试消费者脚本来消费topic中的数据推荐大家

2022-03-21 15:12:19 2040

原创 1-Kafka简介

消息队列消息队列——用于存放消息的组件程序员可以将消息放入到队列中，也可以从消息队列中获取消息很多时候消息队列不是一个永久性的存储，是作为临时存储存在的（设定一个期限：设置消息在MQ中保存10天）消息队列中间件：消息队列的组件，例如：Kafka、Active MQ、RabbitMQ、RocketMQ、ZeroMQKafka的应用场景异步处理可以将一些比较耗时的操作放在其他系统中，通过消息队列将需要进行处理的消息进行存储，其他系统可以消费消息队列中的数据比较常见的：发送短信验证码、发

2022-03-21 15:10:02 121

原创 3-Hive 的基本操作

3. Hive 的基本操作###3.1 数据库操作####3.1.1 创建数据库create database if not exists myhive;use myhive;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value>####3.1.2 创建数据库并指

2022-03-15 00:45:29 139

原创 2-Hive的基本概念

2. Hive 的基本概念2.1. Hive 简介什么是 HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更进一步可以说hive就是一个MapReduce的客户端为什么使用 Hive采用类SQL语法去操作数据，提供快速开发的能力。避免了去写MapReduce

2022-03-15 00:43:52 1297

原创 linux管道相关命令

目标cutsortwcuniqteetrsplitawksedgrep准备数据zhangsan 68 99 26lisi 98 66 96wangwu 38 33 86zhaoliu 78 44 36maq 88 22 66zhouba 98 44 46以上是成绩表信息使用逗号分割, 第一列是姓名, 第二列是语文成绩, 第三列是数学成绩, 第四列是英语成绩需求1: 按照数学成绩排名, 取出前三名需求2: 显示学生的数学成

2022-02-14 00:53:27 3886

原创 linux常用命令2

文章目录准备工作一、搜索命令1.find 搜索1.1 目标1.2 路径1.3 实现 : 在指定目录中根据名称搜索命令格式第一步: 搜索指定目录下, 文件是 abc.txt的文件第二步: 搜索指定目录下, 文件名包含 `1` 的文件第三步: 搜索指定目录下,所有以`.txt` 为扩展名的文件第四步: 搜索指定目录下, 以数字`1`开头的文件1.3 小结解压缩命令1.目标2 路径3.实现3.1 第一步: 打包和解包3.1.1 打包3.1.2 解包小结3.2 第二步: 使用gzip格式压缩和解压缩

2022-02-14 00:33:21 475

原创 linux常用命令

文章目录一、命令概述1.学习Linux终端命令的原因2.Linux终端命令格式目标2.1 终端命令格式常用Linux命令的基本使用2.2 查阅命令帮助信息2.2.1 --help 帮助信息2.2.2 man 手册二、文件和目录常用命令目标1.查看目录内容1.1 终端使用技巧1> 自动补全2> 曾经使用过的命令1.2 ls命令说明1.3 ls常用选项1.4 ls 和通配符的使用2.切换目录2.1 cd2.2 相对路径和绝对路径2.2.1 目标 : 通过路径找到目标2.2.2 如何分步骤实现:

2022-02-13 20:25:40 3085

原创 01 -- 机器学习入门

1.大数据框架大数据的离线数据处理Hadoop大数据平台(Hadoop1和Hadoop2、Hadoop3)HDFS分布式文件系统MapReduce分布式计算框架Yarn资源管理平台Hive数据仓库底层执行的是MRSqoop关系型数据库和非关系型数据库的导入和导出底层MRFlume数据采集大数据的实时数据处理Storm-----天猫双11，实时统计销售总额Spark-----一站式数据分析平台Spark-CoreSparkSql----HiveSp

2022-01-31 23:38:49 2451

原创 Debug&基础练习

1.Debug模式1.1 什么是Debug模式是供程序员使用的程序调试工具，它可以用于查看程序的执行流程，也可以用于追踪程序执行过程来调试程序。1.2 Debug介绍与操作流程如何加断点选择要设置断点的代码行，在行号的区域后面单击鼠标左键即可如何运行加了断点的程序在代码区域右键Debug执行看哪里看Debugger窗口看Console窗口点哪里点Step Into (F7)这个箭头，也可以直接按F7如何删除断点选择要删除的断点，单击

2021-02-23 17:14:59 272

原创方法

1. 方法概述1.1 方法的概念方法（method）是将具有独立功能的代码块组织成为一个整体，使其具有特殊功能的代码集注意：方法必须先创建才可以使用，该过程成为方法定义方法创建后并不是直接可以运行的，需要手动使用后，才执行，该过程成为方法调用2. 方法的定义和调用2.1 无参数方法定义和调用定义格式：public static void 方法名 ( ) { // 方法体;}范例：public static void method ( ) { //

2021-02-23 17:01:31 110

原创数组

1.数组1.1 数组介绍数组就是存储数据长度固定的容器，存储多个数据的数据类型要一致。1.2 数组的定义格式1.2.1 第一种格式数据类型[] 数组名示例：int[] arr; double[] arr; char[] arr;1.2.2 第二种格式数据类型数组名[] 示例：int arr[];double arr[];char arr[];1.3 数组的动态初始化1.3.1 什么是动态初始化数组动态初始化就是只给定数组

2021-02-23 12:49:52 151

原创 switch&循环语句

1. switch语句1.1 分支语句switch语句格式switch (表达式) { case 1: 语句体1; break; case 2: 语句体2; break; ... default: 语句体n+1; break;}执行流程：首先计算出表达式的值其次，和case依次比较，一旦有对应的值，就会执行相应的语句，在执行的过程中，遇到break就会结束。最后，如果所有的case都和表达式的值不匹配，就会执行default语句体部分，然后程序结

2021-02-23 10:43:30 560

原创 JAVA基础语法_2

day02 - Java基础语法1 类型转换在Java中，一些数据类型之间是可以相互转换的。分为两种情况：自动类型转换和强制类型转换。1.1 隐式转换(理解) 把一个表示数据范围小的数值或者变量赋值给另一个表示数据范围大的变量。这种转换方式是自动的，直接书写即可。例如：double num = 10; // 将int类型的10直接赋值给double类型System.out.println(num); // 输出10.0 类型从小到大关系图：说明：整数默认是int类型，byte、s

2021-02-22 18:51:32 210

原创接口和内部类

1.接口1.1黑马信息管理系统集合改进 (应用)使用数组容器的弊端容器长度是固定的，不能根据添加功能自动增长没有提供用于赠删改查的方法优化步骤创建新的StudentDao类，OtherStudentDao创建ArrayList集合容器对象OtherStudentDao中的方法声明，需要跟StudentDao保持一致注意：如果不一致，StudentService中的代码就需要进行修改完善方法（添加、删除、修改、查看）替换StudentService中的Da

2021-02-22 12:46:16 110

原创继承

1. 继承1.1 继承的实现（掌握）继承的概念继承是面向对象三大特征之一，可以使得子类具有父类的属性和方法，还可以在子类中重新定义，以及追加属性和方法实现继承的格式继承通过extends实现格式：class 子类 extends 父类 { }举例：class Dog extends Animal { }继承带来的好处继承可以让类与类之间产生关系，子父类关系，产生子父类后，子类则可以使用父类中非私有的成员。示例代码public class Fu {

2021-02-22 12:41:47 165

原创分类和static

1.案例驱动模式1.1案例驱动模式概述 (理解)通过我们已掌握的知识点,先实现一个案例,然后找出这个案例中,存在的一些问题,在通过新知识点解决问题1.2案例驱动模式的好处 (理解)解决重复代码过多的冗余,提高代码的复用性解决业务逻辑聚集紧密导致的可读性差,提高代码的可读性解决代码可维护性差,提高代码的维护性2.分类思想2.1分类思想概述 (理解)分工协作,专人干专事2.2黑马信息管理系统 (理解)Student类标准学生类,封装键盘录入的学生信息(id , name , a

2021-02-22 12:13:47 163

原创 ArrayList集合&学生管理系统

1.ArrayList集合和数组的区别 : 共同点：都是存储数据的容器不同点：数组的容量是固定的，集合的容量是可变的1.1 -ArrayList的构造方法和添加方法public ArrayList()创建一个空的集合对象public boolean add(E e)将指定的元素追加到此集合的末尾public void add(int index,E element)在此集合中的指定位置插入指定的元素ArrayList ：可调整大小的数组实现 :

2021-02-11 17:45:54 559

原创常用API

1.API1.1 API概述-帮助文档的使用什么是API API (Application Programming Interface) ：应用程序编程接口java中的API 指的就是 JDK 中提供的各种功能的 Java类，这些类将底层的实现封装了起来，我们不需要关心这些类是如何实现的，只需要学习这些类如何使用即可，我们可以通过帮助文档来学习这些API如何使用。如何使用API帮助文档 :打开帮助文档找到索引选项卡中的输入框在输入框中输入Random看类在

2021-02-11 17:35:42 108

原创面向对象

1. 类和对象**面向对象和面向过程的思想对比 : ** **面向过程：**是一种以过程为中心的编程思想，实现功能的每一步，都是自己实现的 **面向对象：**是一种以对象为中心的编程思想，通过指挥对象实现具体的功能1.1 类和对象的关系客观存在的事物皆为对象，所以我们也常常说万物皆对象。类类的理解类是对现实生活中一类具有共同属性和行为的事物的抽象类是对象的数据类型，类是具有相同属性和行为的一组对象的集合简单理解：类就是对现实事物的一种描述类的组成属性：指事物的特

2021-02-11 17:28:50 103

原创 JAVA基础语法_1

1. Java概述1.1 Java语言背景介绍（了解）语言：人与人交流沟通的表达方式计算机语言：人与计算机之间进行信息交流沟通的一种特殊语言Java语言是美国Sun公司（Stanford University Network）在1995年推出的计算机语言Java之父：詹姆斯·高斯林（James Gosling）2009年，Sun公司被甲骨文公司收购，所以我们现在访问oracle官网即可：https://www.oracle.comjava语言的三个版本： JavaSE: Java 语言的

2021-02-10 19:03:56 299 1

原创 Maven基础

Maven基础学习目标目标1：能够说出maven的作用，POM的概念目标2：完成maven的下载，安装和环境配置目标3：能够说出仓库，坐标的概念，完成仓库的配置目标4：完成手动搭建maven项目的案例目标5：完成IDEA工具搭建maven项目的案例目标6：能够说出依赖的传递方式和如何解决依赖传递冲突目标7：能够说出maven的生命周期1.Maven简介1.1 Maven是什么在学习Maven之前，我们先来看一下我们现在做的项目都有哪些问题。假设你现在做了一个crm的系统，项目中肯定要

2021-02-01 20:59:02 163

原创数据仓库

数据仓库1．数据仓库的基本概念2．数据仓库的主要特征2.1．面向主题2.2．集成性2.3．非易失性（不可更新性）2.4．时变性3．数据仓库与数据库区别4、数据仓库分层架构5、数据仓库元数据管理 1．数据仓库的基本概念数据仓库，英文名称为Data W...

2019-06-18 14:15:45 210

原创 YARN 详解

YARNyarn当中的各个主要组件的介绍yarn当中各个主要组件的作用yarn当中的调度器YARN资源调度步骤YARN的基本组成结构（组件）：yarn当中的各个主要组件的介绍ResourceManager：yarn集群的主节点，主要用于接收客户端提交的任务，并对任务进行分配。NodeManager：yarn集群的从节点，主要用于任务的计算ApplicationMaster：当有新的任务提交...

2019-06-17 11:37:50 1371

原创 MapReduce & Yarn参数优化

MapReduce & Yarn参数优化资源相关参数容错相关参数本地运行mapreduce 作业效率和稳定性相关参数关于yarn常用参数设置资源相关参数以下调整参数都在mapred-site.xml这个配置文件当中有//以下参数是在用户自己的mr应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限（单位:MB），默认...

2019-06-17 10:45:24 685

原创 MapReduce-shuffle详解

MapReduce-shuffle详解shuffle粗解为什么MapReduce计算模型需要Shuffle过程？Shuffle过程：map端：（Spill过程：包括输出，分区，排序，溢写，合并等）Reduce端：（copy(拉取)，sort）combiner：（map端的Reduce）相关配置shuffle官方图shuffle粗解shuffle：本意是洗牌、混洗，把一定有规则的数据尽量转换成一...

2019-06-03 14:57:16 1571 1

空空如也

空空如也