xiaoxaoyu-优快云博客

原创 Hive sql分组函数grouping sets、cube、rollup用法简介

文章目录1、数据如下：2、建表如下：3、grouping sets4、cube5、rollup1、数据如下：user_id,dep_id,group_id,salary10001,a,101,1300010002,a,101,1700010003,a,101,900010004,a,101,1100010005,a,101,1800010006,a,102,1600010007,a,102,1000010008,b,103,1800010009,b,103,1100010010,b,

2022-04-03 17:45:10 4484

原创 Nginx配置负载均衡

文章目录1、安装2、常用命令和问题3、配置负载均衡1、安装# 运行 yum，安装相关依赖包[root@single ~]# sudo yum -y install openssl openssl-devel pcre pcre-devel zlib zlib-devel gcc gcc-c++# 将nginx-1.12.2.tar.gz 上传到/opt/download 下[root@single download]# tar -zxf nginx-1.12.2.tar.gz -C /opt/so

2022-03-27 23:51:09 4161 2

转载图解Git工作原理

文章目录基本用法约定命令详解DiffCommitCheckoutHEAD标识处于分离状态时的提交操作ResetMergeCherry PickRebase技术说明Git 是程序员学习和工作都离不开的开发工具，也是非程序员好用的文档版本管理工具。本文图解 Git 中的最常用命令。如果你稍微理解 Git 的工作原理，这篇文章能够让你理解的更透彻。原文链接：https://marklodato.github.io/visual-git-guide/index-zh-cn.html基本用法上面的四条命

2021-06-27 10:20:05 420

转载万字长文详解HiveSQL执行计划

文章目录查看SQL的执行计划1. explain 的用法2. explain 的使用场景案例一：join 语句会过滤 null 的值吗？案例二：group by 分组语句会进行排序吗？案例三：哪条sql执行效率高呢？2. explain dependency的用法案例一：识别看似等价的代码案例二：识别SQL读取数据范围的差别3. explain authorization 的用法最后Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执

2021-06-27 09:51:12 390

原创 python实现企业编码生成系统

外部模块：> pip install qrcode> pip install pystrich代码如下：#!/usr/bin/env python# -*- coding:utf-8 -*-import os, tkinter, random, string, time, qrcodefrom pystrich.ean13 import EAN13Encoderimport tkinter.messageboximport tkinter.filedialogfrom tk

2021-06-26 23:20:40 1542

原创 python实现学生信息管理系统开发

python实现学生信息管理系统#!/usr/bin/env python# -*- coding:utf-8 -*-import reimport os# 主函数def main(): ctrl = True while (ctrl): menu() option = input("请选择：") option_str = re.sub("\D", "", option) if option_str in ['0

2021-06-17 00:35:45 976 6

原创数仓项目笔记梳理

文章目录1、上传表2、使用SparkSQL对问题数据进行探索和处理探索思路：思路1，对空值进行处理：思路2，对重复值进行去重：思路3，行转列：思路4，规范化字段内容2.1、User表2.2、events表2.3、user_friends表2.4、event_attendees2.5、trains表3、kafka多线程并行写进不同分区4、Flume采集数据流向kafka4.2、依次创建kafka中对应主题4.3、打开消费者，执行对应flume-ng命令4.4、查看最终flume条数4.5、flume脚本案例(

2021-06-07 22:15:05 8291 11

原创 MongoDB基本使用

文章目录Mongodb概述mongodb数据模型1、MongoDB安装1.1、配置yum源1.2、通过tar解压文件，或yum进行安装1.3、启动mongod 服务2、mongodb 操作（重点）2.1、修改mongodb 配置文件2.2、集合的创建与删除2.3、文档操作2.3.1、插入文档2.3.2、批量插入文档2.3.3、查询2.3.4、更新2.3.5、删除2.3.6、多字段分组聚合2.4、mongodb与hive整合2.4.1、拷贝jar包到hive的lib目录2.4.2、在hive中创建表，关联m

2021-05-29 19:41:45 244

原创 MongoDB相关API

文章目录1、简单的连接查询2、过滤查询3、插入数据4、Kafka to MongoDB5、使用java读取MongoDB的消费pom依赖<dependency> <groupId>org.mongodb</groupId> <artifactId>mongo-java-driver</

2021-05-29 19:25:45 478

原创 ESXi+docker

文章目录ESXi安装1、ESXi安装：2、重启后的配置：Docker环境部署1、创建虚拟机2、安装完之后，连上xshell，安装docker3、配置容器镜像4、从容器里拉取资源Docker部署Tomcat发布测试1、从容器里拉取资源tomcat2、新建数据库插入数据3、新建maven工程，webapp4、写ssm读数据库5、打war包5、上传到容器里ESXi安装1、ESXi安装：基本上都是下一步，就不做过多介绍了自定义硬件为iso镜像的路径，然后就完成了，重启2、重启后的配置：

2021-05-11 23:30:20 15316

原创 SpringBoot连接Oracle

SpringBoot入门教程以连接Oracle为例1、创建sp项目1.1、配置和选项1.2、修改Oracle版本修改默认的依赖为自己mvn仓库的依赖<dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.1.0</version></dependenc

2021-05-06 14:38:02 25764 5

原创 JavaAPI获取接口数据

文章目录1、内网的第三方接口信息获取2、外网开放API获取数据——高德地图测试1、内网的第三方接口信息获取依赖和版本：httpclient、fastjson<dependency> <groupId>org.apache.httpcomponents</groupId> <

2021-05-06 14:07:43 2706

转载常用的正则表达式整理

一、校验数字的表达式数字：^[0-9]*$n位的数字：^\d{n}$至少n位的数字：^\d{n,}$m-n位的数字：^\d{m,n}$零和非零开头的数字：^(0|[1-9][0-9]*)$非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})?$正数、负数、和小数：^(\-|\+)?\d+(\.\d+)?$有两位小数的正实数：^[0-9]+(.[0-9]{2})?$有1~3位小数的

2021-05-03 21:34:38 672 3

原创 log4j简单配置_备忘

1、正常配置### 设置###log4j.rootLogger = debug,D,E### 输出DEBUG 级别以上的日志到=E://logs/debug.log ###log4j.appender.D = org.apache.log4j.DailyRollingFileAppenderlog4j.appender.D.File = D://logs/debug.loglog4j.appender.D.Append = truelog4j.appender.D.Threshold = D

2021-05-03 14:43:29 195

原创 Redis安装

Redis安装教程1、Redis下载Redis全称：Remote Dictionary ServerRedis中文官网：http://www.redis.cn/下载地址：https://github.com/dmajkic/redis/downloads2、解压文件tar -zxvf redis-3.0.4.tar.gz -C /opt/software/# 进入解压后的文件cd /opt/software/redis-3.0.4# 查看文件ll这个Makefile就是redis的

2021-05-02 00:59:40 241

原创 redis入门

文章目录1、杂项：2、redis键(key)3、五大数据类型3.1、String(字符串)3.2、List(列表)3.3、Set(集合)3.4、Hash(哈希)3.5、ZSet(sorted set:有序集合)参考1：Redis keys 命令参考2：Redis 字符串命令参考3：Redis hash 命令参考4：Redis 列表命令参考5：Redis 集合命令参考6：Redis 有序集合命令命令参考文档：http://redisdoc.com/1、杂项：dbsize：当前库大小select：切换数

2021-05-02 00:55:13 149

原创 mybatis连接oracle的使用方法

文章目录1、依赖2、mybatis.cfg.xml3、entity4、dao5、app5.1、inserttest5.2、InsertBatchTest6、mapper参考文章：mybatis连接mysql的使用方法1、依赖<dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.1.0</

2021-04-30 14:55:38 1187 1

原创 SSM框架——Spring+SpringMVC+MyBatis整合_Oracle

文章目录1、spring.xml2、mybatis.cfg.xml3、entity4、dao5、ctrl6、services7、mapper9、依赖参考文章：SSM框架——Spring+SpringMVC+MyBatis整合测试案例1、spring.xml<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:conte

2021-04-30 14:52:36 278 1

原创 FineReport部署

部署方法帆软官网下载Tomcat对应版本然后做以下操作即可1、拷贝D:\Program Files\FineReport_10.0\webapps\webroot\WEB-INF\reportlets上的报表至D:\software\tomcat-win64\webapps\webroot\WEB-INF\reportlets2、拷贝D:\Program Files\FineReport_10.0\webapps\webroot\WEB-INF下的 \embed目录至D:\software\tomca

2021-04-30 14:08:12 1454 1

原创 OracleJDBC驱动连接

OracleJDBC驱动连接1、jdbc驱动1.1、maven官网上的不可用，去安装目录上去找ojdbc6.jar，目录/data/oracle/product/11.2.0/db_1/jdbc/lib，然后拷贝jar包到本地文件夹(自定义一个目录即可)；1.2、查看版本号：select * from v$version;。本例输出：11.2.0.1.0；1.3、maven配本地环境变量到bin目录，打开cmd黑窗口，输入mvn测试；1.4、打开cmd黑窗口，进入ojdbc6.jar的存放目录，执

2021-04-30 14:03:25 1127

原创 Oracle常用方法

文章目录一、Oracle原理1、数据库文件2、Oracle表空间、段、区和块二、常用操作1、建表建库2、使用伪列删除重复ID的方式3、oracle插入数据的另一种方式4、序列5、同义词6、PLSQL6.1、循环6.2、if...else、if...elsif...else语句7、游标8、函数8.1、简单的自定义函数8.2、返回游标（系统级的）的自定义函数9、存储过程10、触发器10.1、后触10.2、前触11、表空间的导入导出一、Oracle原理参考文章：https://blog.youkuaiyun.com/lo

2021-04-29 23:03:05 856

原创 PostgreSQL安装

PostgreSQL Linux环境安装安装环境：Centos7postgresql版本：13.0安装方式：编译安装1、下载官网下载：https://ftp.postgresql.org/pub/source/v13.0/postgresql-13.0.tar.gzwget下载：wget https://ftp.postgresql.org/pub/source/v13.0/postgresql-13.0.tar.gz2、安装前准备配置用户和组groupadd postgre

2021-04-23 22:46:01 880

原创 FineReport连接Hive

FineReport连接Hive和测试1、准备Hive相关jar包拷贝至FineReport_10.0\webapps\webroot\WEB-INF\lib参考：D:\Program Files\FineReport_10.0\webapps\webroot\WEB-INF\libhadoop-common-2.6.0-cdh5.14.2.jarhive-exec-1.1.0-cdh5.14.2.jarhive-jdbc-1.1.0-cdh5.14.2-standalone.jarhive-m

2021-04-22 19:12:37 1464 1

原创 mybatis连接Hive和MySQL双源操作

文章目录一、mybatis连接hive和MySQL测试1、导入依赖2、创建druid连接池3、创建数据源4、创建实体类5、创建dao6、mybatis-config.xml7、mapper/hive-events.xml8、mapper/mysql-events.xml9、测试类二、mybatis代替sqoop的功能，把数据从Hive导入MySQL1-4、前四步与上例相同5、创建dao5.1、创建MySQLEventsDao5.2、创建HiveEventsDao6、第6步同案例17、mapper/hive-

2021-04-21 23:37:02 5685 5

原创 FlinkWindow和水印

文章目录Flink Window API1、TimeWindow1.1、滚动窗口1.2、滑动窗口（SlidingEventTimeWindows）2、CountWindow2.1、滚动窗口2.2、滑动窗口3、window function4、其它可选API5、窗口起始点的确认时间语义与 Wartermark1、Flink中的时间语义2、EventTime 的引入3、Watermark基本概念4、Watermark 的引入4.1、乱序数据的水印引入4.2、Assigner with periodic wate

2021-04-18 13:20:33 268

原创 pyspark安装文档

pyspark环境安装一、python3环境安装参考文档：pyspark安装1、下载安装包生产环境下的python安装包，tgz格式，C语言，没有编译过的。Java可以跨平台，只能针对当前计算机https://www.python.org/ftp/python/3.6.4/也可以使用wget命令接上面的网址直接下载2、安装python可能用到的依赖：yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-de

2021-04-13 10:46:27 946

原创 Kmeans入门

文章目录Kmeans算法简单实现生成数据集重写fit和predict方法定义一个子绘图函数执行输出如下：完整代码解释如下：Kmeans算法简单实现平台：python训练数据集：sklearn模块下的数据集使用模块：import matplotlib.pyplot as plt：根据数据做出散点图from sklearn.datasets._samples_generator import make_blobsfrom scipy.spatial.distance import cdist：求

2021-04-11 17:45:28 620

原创 HBase数据倾斜问题

HBase数据倾斜问题文章目录相关知识：负载均衡：避免表region分布倾斜方式1：方式2：相关知识：数据存入hbase表时会按照rowkey落在不同的region中，每个region都有边界（除非你只有一个region）startrow和endrow，rowkey在表中是按照ASCⅡ码的字典排序的。负载均衡：region被regionserver管理，Hbase可以自动将region balance到各个regionserver上，使得每台regionserver上region的个数均匀分布。当

2021-04-09 03:11:03 1601

原创 flink读取kafka数据对数据进行清洗，然后再重新写入kafka

文章目录flink读取kafka数据对数据进行清洗，然后再重新写入kafka1、流水写法2、OOP写法2.1、抽象接口读、写、数据处理2.2、开发人员实现数据源添加和写入某数据平台2.3、用户方针对不同数据实现的特质2.4、执行器，混入特质2.5、动态混入用户的方法，执行flink读取kafka数据对数据进行清洗，然后再重新写入kafka1、流水写法读：设置kafka消费者为flink数据源transform写：设置kafka生产者为flink数据源object FlinkReadWrite

2021-04-08 02:36:31 1873

原创 JavaAPI读取Kafka消息并写入到HBase中

文章目录1、先把消费者组的游标重置，防止该消费者组消费过数据无法再消费(执行操作前做就可以)2、创建HBase表3、模板模式批量消费kafka插入hbase3.1、接口层读和写3.2、工具类：读写之前，需要分别创建消费者对象和hbase的连接connection，创建连接需要配置。3.3、读kafka的实现类3.4、写HBase的实现类3.5、简单工厂模式创建连接执行器4、检验数据导入是否正确1、先把消费者组的游标重置，防止该消费者组消费过数据无法再消费(执行操作前做就可以)# 消费者组的游标重置ka

2021-04-07 23:40:00 723

原创 sparkStreaming对kafka topic数据进行处理后再重新写入kafka(2)

在上文中，我们使用sparkStreaming对kafka中某topic数据进行数据处理后再重新写入kafka，其实整套逻辑思路并不复杂，但全都写在一个类里面，只能一次性使用，修改时要修改类主体的内容，扩展性很差，安全性也得不到保障。因此本文把该类主体内容拆解，抽出各个部分，便于管理和扩展文章目录1、思路分析：1.1、从逻辑上抽出第一层概念：1.2、通过核心动作抽出第二层概念1.3、把可以替换的属性方法抽出来，得到：2、代码实现：2.1、顶级接口功能设计2.1.1、读2.1.2、写2.1.3、数据处理2

2021-04-06 20:47:07 427

原创 sparkStreaming对kafka topic数据进行处理后再重新写入kafka

文章目录1、需求：2、知识点：3、方法1：4、方法2：4.1、伴生类创建KafkaProducer包装器4.2、SparkStreaming消费kafka并写入kafka1、需求：使用sparkStreaming对kafka中某topic数据进行数据处理后再重新写入kafka2、知识点：广播变量SparkStreaming连接kafka进行消费rdd算子写入kafka懒加载伴生类与伴生对象的使用producerRecord手动序列化3、方法1：KafkaProducer不可序

2021-04-02 00:07:53 2039 3

原创 Spark-Streaming基础使用

文章目录1、SparkStreaming案例1.1 代码如下：1.2 shell作为数据输入端1.3 执行测试1.4 踩坑点2、使用Spark Streaming处理HDFS上的文件2.1 代码如下2.2 上传文件2.3 踩坑点3、使用Spark Streaming处理有状态的数据3.1 流程分析3.2 代码如下3.3 测试3.4 踩坑点4、使用Spark Streaming整合Spark SQL4.1 流程分析4.2 代码如下5、使用Spark Streaming处理Flume输出的数据-push6、使用

2021-04-01 01:25:40 490

原创 kafka多线程写入数据案例

文章目录1、主要思路：2、实现步骤2.1、消息接口 Dbinfo2.2、KafkaConnector2.3、CustomkafkaProducer2.4、测试类App1、主要思路：把producer配置信息进行封装使用LineNumberReader获取文件总行数和对应行的起始字节位置，并存入map里，方便不同线程从不同行读取和写入kafka继承Thread类，重写run方法并执行2、实现步骤2.1、消息接口 Dbinfokafka消息对象 KafkaConfiguration

2021-03-30 01:51:53 1230

原创 kafka基础概念整理

文章目录1、kafka是什么？2、kafka特点3、kafka为什么这么快？4、kafka核心组件5、消费者组的意义是什么？6、consumer加入或离开？7、kafka文件存储基本结构8、为什么要划分为多个segment?9、isr副本同步列表和acks应答机制简介10、不清洁选举unclean.clean.election.enable，默认为false11、怎么保证kafka消费者消费数据是全局有序的12、数据丢失参数设置13、异步发送消息时消息丢失怎么解决？14、避免消息丢失最佳实践：15、消息重复

2021-03-28 18:30:53 291

空空如也

空空如也