- 博客(147)
- 收藏
- 关注
原创 Hive sql分组函数grouping sets、cube、rollup用法简介
文章目录1、数据如下:2、建表如下:3、grouping sets4、cube5、rollup1、数据如下:user_id,dep_id,group_id,salary10001,a,101,1300010002,a,101,1700010003,a,101,900010004,a,101,1100010005,a,101,1800010006,a,102,1600010007,a,102,1000010008,b,103,1800010009,b,103,1100010010,b,
2022-04-03 17:45:10
4299
原创 Nginx配置负载均衡
文章目录1、安装2、常用命令和问题3、配置负载均衡1、安装# 运行 yum,安装相关依赖包[root@single ~]# sudo yum -y install openssl openssl-devel pcre pcre-devel zlib zlib-devel gcc gcc-c++# 将nginx-1.12.2.tar.gz 上传到/opt/download 下[root@single download]# tar -zxf nginx-1.12.2.tar.gz -C /opt/so
2022-03-27 23:51:09
4106
2
转载 图解Git工作原理
文章目录基本用法约定命令详解DiffCommitCheckoutHEAD标识处于分离状态时的提交操作ResetMergeCherry PickRebase技术说明Git 是程序员学习和工作都离不开的开发工具,也是非程序员好用的文档版本管理工具。本文图解 Git 中的最常用命令。如果你稍微理解 Git 的工作原理,这篇文章能够让你理解的更透彻。原文链接:https://marklodato.github.io/visual-git-guide/index-zh-cn.html基本用法上面的四条命
2021-06-27 10:20:05
369
转载 万字长文详解HiveSQL执行计划
文章目录查看SQL的执行计划1. explain 的用法2. explain 的使用场景案例一:join 语句会过滤 null 的值吗?案例二:group by 分组语句会进行排序吗?案例三:哪条sql执行效率高呢?2. explain dependency的用法案例一:识别看似等价的代码案例二:识别SQL读取数据范围的差别3. explain authorization 的用法最后Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执
2021-06-27 09:51:12
319
原创 python实现企业编码生成系统
外部模块:> pip install qrcode> pip install pystrich代码如下:#!/usr/bin/env python# -*- coding:utf-8 -*-import os, tkinter, random, string, time, qrcodefrom pystrich.ean13 import EAN13Encoderimport tkinter.messageboximport tkinter.filedialogfrom tk
2021-06-26 23:20:40
1479
原创 python实现学生信息管理系统开发
python实现学生信息管理系统#!/usr/bin/env python# -*- coding:utf-8 -*-import reimport os# 主函数def main(): ctrl = True while (ctrl): menu() option = input("请选择:") option_str = re.sub("\D", "", option) if option_str in ['0
2021-06-17 00:35:45
946
6
原创 数仓项目笔记梳理
文章目录1、上传表2、使用SparkSQL对问题数据进行探索和处理探索思路:思路1,对空值进行处理:思路2,对重复值进行去重:思路3,行转列:思路4,规范化字段内容2.1、User表2.2、events表2.3、user_friends表2.4、event_attendees2.5、trains表3、kafka多线程并行写进不同分区4、Flume采集数据流向kafka4.2、依次创建kafka中对应主题4.3、打开消费者,执行对应flume-ng命令4.4、查看最终flume条数4.5、flume脚本案例(
2021-06-07 22:15:05
8003
11
原创 MongoDB基本使用
文章目录Mongodb概述mongodb数据模型1、MongoDB安装1.1、配置yum源1.2、通过tar解压文件,或yum进行安装1.3、启动mongod 服务2、mongodb 操作(重点)2.1、修改mongodb 配置文件2.2、集合的创建与删除2.3、文档操作2.3.1、插入文档2.3.2、批量插入文档2.3.3、查询2.3.4、更新2.3.5、删除2.3.6、多字段分组聚合2.4、mongodb与hive整合2.4.1、拷贝jar包到hive的lib目录2.4.2、在hive中创建表,关联m
2021-05-29 19:41:45
182
原创 MongoDB相关API
文章目录1、简单的连接查询2、过滤查询3、插入数据4、Kafka to MongoDB5、使用java读取MongoDB的消费pom依赖<!-- https://mvnrepository.com/artifact/org.mongodb/mongo-java-driver --><dependency> <groupId>org.mongodb</groupId> <artifactId>mongo-java-driver</
2021-05-29 19:25:45
406
原创 ESXi+docker
文章目录ESXi安装1、ESXi安装:2、重启后的配置:Docker环境部署1、创建虚拟机2、安装完之后,连上xshell,安装docker3、配置容器镜像4、从容器里拉取资源Docker部署Tomcat发布测试1、从容器里拉取资源tomcat2、新建数据库插入数据3、新建maven工程,webapp4、写ssm读数据库5、打war包5、上传到容器里ESXi安装1、ESXi安装:基本上都是下一步,就不做过多介绍了自定义硬件为iso镜像的路径,然后就完成了,重启2、重启后的配置:
2021-05-11 23:30:20
14842
原创 SpringBoot连接Oracle
SpringBoot入门教程以连接Oracle为例1、创建sp项目1.1、配置和选项1.2、修改Oracle版本修改默认的依赖为自己mvn仓库的依赖<dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.1.0</version></dependenc
2021-05-06 14:38:02
25469
5
原创 JavaAPI获取接口数据
文章目录1、内网的第三方接口信息获取2、外网开放API获取数据——高德地图测试1、内网的第三方接口信息获取依赖和版本:httpclient、fastjson<!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient --><dependency> <groupId>org.apache.httpcomponents</groupId> <
2021-05-06 14:07:43
2569
转载 常用的正则表达式整理
一、校验数字的表达式数字:^[0-9]*$n位的数字:^\d{n}$至少n位的数字:^\d{n,}$m-n位的数字:^\d{m,n}$零和非零开头的数字:^(0|[1-9][0-9]*)$非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$有两位小数的正实数:^[0-9]+(.[0-9]{2})?$有1~3位小数的
2021-05-03 21:34:38
574
3
原创 log4j简单配置_备忘
1、正常配置### 设置###log4j.rootLogger = debug,D,E### 输出DEBUG 级别以上的日志到=E://logs/debug.log ###log4j.appender.D = org.apache.log4j.DailyRollingFileAppenderlog4j.appender.D.File = D://logs/debug.loglog4j.appender.D.Append = truelog4j.appender.D.Threshold = D
2021-05-03 14:43:29
163
原创 Redis安装
Redis安装教程1、Redis下载Redis全称:Remote Dictionary ServerRedis中文官网:http://www.redis.cn/下载地址:https://github.com/dmajkic/redis/downloads2、解压文件tar -zxvf redis-3.0.4.tar.gz -C /opt/software/# 进入解压后的文件cd /opt/software/redis-3.0.4# 查看文件ll这个Makefile就是redis的
2021-05-02 00:59:40
214
原创 redis入门
文章目录1、杂项:2、redis键(key)3、五大数据类型3.1、String(字符串)3.2、List(列表)3.3、Set(集合)3.4、Hash(哈希)3.5、ZSet(sorted set:有序集合)参考1:Redis keys 命令参考2:Redis 字符串命令参考3:Redis hash 命令参考4:Redis 列表命令参考5:Redis 集合命令参考6:Redis 有序集合命令命令参考文档:http://redisdoc.com/1、杂项:dbsize:当前库大小select:切换数
2021-05-02 00:55:13
107
原创 mybatis连接oracle的使用方法
文章目录1、依赖2、mybatis.cfg.xml3、entity4、dao5、app5.1、inserttest5.2、InsertBatchTest6、mapper参考文章:mybatis连接mysql的使用方法1、依赖<dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.1.0</
2021-04-30 14:55:38
1050
1
原创 SSM框架——Spring+SpringMVC+MyBatis整合_Oracle
文章目录1、spring.xml2、mybatis.cfg.xml3、entity4、dao5、ctrl6、services7、mapper9、依赖参考文章:SSM框架——Spring+SpringMVC+MyBatis整合测试案例1、spring.xml<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:conte
2021-04-30 14:52:36
239
1
原创 FineReport部署
部署方法帆软官网下载Tomcat对应版本然后做以下操作即可1、拷贝D:\Program Files\FineReport_10.0\webapps\webroot\WEB-INF\reportlets上的报表至D:\software\tomcat-win64\webapps\webroot\WEB-INF\reportlets2、拷贝D:\Program Files\FineReport_10.0\webapps\webroot\WEB-INF下的 \embed目录至D:\software\tomca
2021-04-30 14:08:12
1284
1
原创 OracleJDBC驱动连接
OracleJDBC驱动连接1、jdbc驱动1.1、maven官网上的不可用,去安装目录上去找ojdbc6.jar,目录/data/oracle/product/11.2.0/db_1/jdbc/lib,然后拷贝jar包到本地文件夹(自定义一个目录即可);1.2、查看版本号:select * from v$version;。本例输出:11.2.0.1.0;1.3、maven配本地环境变量到bin目录,打开cmd黑窗口,输入mvn测试;1.4、打开cmd黑窗口,进入ojdbc6.jar的存放目录,执
2021-04-30 14:03:25
1056
原创 Oracle常用方法
文章目录一、Oracle原理1、数据库文件2、Oracle表空间、段、区和块二、常用操作1、建表建库2、使用伪列删除重复ID的方式3、oracle插入数据的另一种方式4、序列5、同义词6、PLSQL6.1、循环6.2、if...else、if...elsif...else语句7、游标8、函数8.1、简单的自定义函数8.2、返回游标(系统级的)的自定义函数9、存储过程10、触发器10.1、后触10.2、前触11、表空间的导入导出一、Oracle原理参考文章:https://blog.youkuaiyun.com/lo
2021-04-29 23:03:05
802
原创 PostgreSQL安装
PostgreSQL Linux环境安装安装环境:Centos7postgresql版本:13.0安装方式:编译安装1、下载官网下载:https://ftp.postgresql.org/pub/source/v13.0/postgresql-13.0.tar.gzwget下载:wget https://ftp.postgresql.org/pub/source/v13.0/postgresql-13.0.tar.gz2、安装前准备配置用户和组groupadd postgre
2021-04-23 22:46:01
837
原创 FineReport连接Hive
FineReport连接Hive和测试1、准备Hive相关jar包拷贝至FineReport_10.0\webapps\webroot\WEB-INF\lib参考:D:\Program Files\FineReport_10.0\webapps\webroot\WEB-INF\libhadoop-common-2.6.0-cdh5.14.2.jarhive-exec-1.1.0-cdh5.14.2.jarhive-jdbc-1.1.0-cdh5.14.2-standalone.jarhive-m
2021-04-22 19:12:37
1347
1
原创 mybatis连接Hive和MySQL双源操作
文章目录一、mybatis连接hive和MySQL测试1、导入依赖2、创建druid连接池3、创建数据源4、创建实体类5、创建dao6、mybatis-config.xml7、mapper/hive-events.xml8、mapper/mysql-events.xml9、测试类二、mybatis代替sqoop的功能,把数据从Hive导入MySQL1-4、前四步与上例相同5、创建dao5.1、创建MySQLEventsDao5.2、创建HiveEventsDao6、第6步同案例17、mapper/hive-
2021-04-21 23:37:02
5553
5
原创 FlinkWindow和水印
文章目录Flink Window API1、TimeWindow1.1、滚动窗口1.2、滑动窗口(SlidingEventTimeWindows)2、CountWindow2.1、滚动窗口2.2、滑动窗口3、window function4、其它可选API5、窗口起始点的确认时间语义与 Wartermark1、Flink中的时间语义2、EventTime 的引入3、Watermark基本概念4、Watermark 的引入4.1、乱序数据的水印引入4.2、Assigner with periodic wate
2021-04-18 13:20:33
204
原创 pyspark安装文档
pyspark环境安装一、python3环境安装参考文档:pyspark安装1、下载安装包生产环境下的python安装包,tgz格式,C语言,没有编译过的。Java可以跨平台,只能针对当前计算机https://www.python.org/ftp/python/3.6.4/也可以使用wget命令接上面的网址直接下载2、安装python可能用到的依赖:yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-de
2021-04-13 10:46:27
870
原创 Kmeans入门
文章目录Kmeans算法简单实现生成数据集重写fit和predict方法定义一个子绘图函数执行输出如下:完整代码解释如下:Kmeans算法简单实现平台:python训练数据集:sklearn模块下的数据集使用模块:import matplotlib.pyplot as plt:根据数据做出散点图from sklearn.datasets._samples_generator import make_blobsfrom scipy.spatial.distance import cdist:求
2021-04-11 17:45:28
566
原创 HBase数据倾斜问题
HBase数据倾斜问题文章目录相关知识:负载均衡:避免表region分布倾斜方式1:方式2:相关知识:数据存入hbase表时会按照rowkey落在不同的region中,每个region都有边界(除非你只有一个region)startrow和endrow,rowkey在表中是按照ASCⅡ码的字典排序的。负载均衡:region被regionserver管理,Hbase可以自动将region balance到各个regionserver上,使得每台regionserver上region的个数均匀分布。当
2021-04-09 03:11:03
1504
原创 flink读取kafka数据对数据进行清洗,然后再重新写入kafka
文章目录flink读取kafka数据对数据进行清洗,然后再重新写入kafka1、流水写法2、OOP写法2.1、抽象接口读、写、数据处理2.2、开发人员实现数据源添加和写入某数据平台2.3、用户方针对不同数据实现的特质2.4、执行器,混入特质2.5、动态混入用户的方法,执行flink读取kafka数据对数据进行清洗,然后再重新写入kafka1、流水写法读:设置kafka消费者为flink数据源transform写:设置kafka生产者为flink数据源object FlinkReadWrite
2021-04-08 02:36:31
1814
原创 JavaAPI读取Kafka消息并写入到HBase中
文章目录1、先把消费者组的游标重置,防止该消费者组消费过数据无法再消费(执行操作前做就可以)2、创建HBase表3、模板模式批量消费kafka插入hbase3.1、接口层读和写3.2、工具类:读写之前,需要分别创建消费者对象和hbase的连接connection,创建连接需要配置。3.3、读kafka的实现类3.4、写HBase的实现类3.5、简单工厂模式创建连接执行器4、检验数据导入是否正确1、先把消费者组的游标重置,防止该消费者组消费过数据无法再消费(执行操作前做就可以)# 消费者组的游标重置ka
2021-04-07 23:40:00
668
原创 sparkStreaming对kafka topic数据进行处理后再重新写入kafka(2)
在上文中,我们使用sparkStreaming对kafka中某topic数据进行数据处理后再重新写入kafka,其实整套逻辑思路并不复杂,但全都写在一个类里面,只能一次性使用,修改时要修改类主体的内容,扩展性很差,安全性也得不到保障。因此本文把该类主体内容拆解,抽出各个部分,便于管理和扩展文章目录1、思路分析:1.1、从逻辑上抽出第一层概念:1.2、通过核心动作抽出第二层概念1.3、把可以替换的属性方法抽出来,得到:2、代码实现:2.1、顶级接口功能设计2.1.1、读2.1.2、写2.1.3、数据处理2
2021-04-06 20:47:07
387
原创 sparkStreaming对kafka topic数据进行处理后再重新写入kafka
文章目录1、需求:2、知识点:3、方法1:4、方法2:4.1、伴生类创建KafkaProducer包装器4.2、SparkStreaming消费kafka并写入kafka1、需求:使用sparkStreaming对kafka中某topic数据进行数据处理后再重新写入kafka2、知识点:广播变量SparkStreaming连接kafka进行消费rdd算子写入kafka懒加载伴生类与伴生对象的使用producerRecord手动序列化3、方法1:KafkaProducer不可序
2021-04-02 00:07:53
1987
3
原创 Spark-Streaming基础使用
文章目录1、SparkStreaming案例1.1 代码如下:1.2 shell作为数据输入端1.3 执行测试1.4 踩坑点2、使用Spark Streaming处理HDFS上的文件2.1 代码如下2.2 上传文件2.3 踩坑点3、使用Spark Streaming处理有状态的数据3.1 流程分析3.2 代码如下3.3 测试3.4 踩坑点4、使用Spark Streaming整合Spark SQL4.1 流程分析4.2 代码如下5、使用Spark Streaming处理Flume输出的数据-push6、使用
2021-04-01 01:25:40
437
原创 kafka多线程写入数据案例
文章目录1、主要思路:2、实现步骤2.1、消息接口 Dbinfo2.2、KafkaConnector2.3、CustomkafkaProducer2.4、测试类App1、主要思路:把producer配置信息进行封装使用LineNumberReader获取文件总行数和对应行的起始字节位置,并存入map里,方便不同线程从不同行读取和写入kafka继承Thread类,重写run方法并执行2、实现步骤2.1、消息接口 Dbinfokafka消息对象 KafkaConfiguration
2021-03-30 01:51:53
1169
原创 kafka基础概念整理
文章目录1、kafka是什么?2、kafka特点3、kafka为什么这么快?4、kafka核心组件5、消费者组的意义是什么?6、consumer加入或离开?7、kafka文件存储基本结构8、为什么要划分为多个segment?9、isr副本同步列表和acks应答机制简介10、不清洁选举unclean.clean.election.enable,默认为false11、怎么保证kafka消费者消费数据是全局有序的12、数据丢失参数设置13、异步发送消息时消息丢失怎么解决?14、避免消息丢失最佳实践:15、消息重复
2021-03-28 18:30:53
236
原创 kafka生产者消费者API(Java、scala)
文章目录一、KafkaAPI代码思路二、依赖三、JavaAPI1、kafka-producer2、kafka-consumer四、ScalaAPI1、kafka-producer2、kafka-consumer五、输出如下:一、KafkaAPI代码思路1、producer设置kafka集群,acks策略配置,K、V序列化创建生产者对象创建生产者信息记录(topic,key,value),然后发送参考文章:Kafka之Producer2、consumer配置集群端口号,消费者组,K、V反
2021-03-28 14:32:38
651
原创 Java实现观察者模式
Java实现观察者模式观察者模式,简单来说就是一对多的依赖,并且把观察者和被观察者对象分开松耦合当某个对象的状态发生更新时,所有依赖的观察者都会收到更新,而断掉依赖的则不在收到代码实现:主题:售楼处的某位员工向有兴趣的用户群发房源降价的消息1、创建观察者接口Observerpublic interface Observer {//观察者接口 void update(String msg);}2、创建被观察者接口public interface Subject {//被观察者的
2021-03-26 12:07:10
2017
原创 spark中正则的使用
spark中正则的使用近期项目中,在写spark做数据清洗时,用了几次正则,因此总结下正则的几个方向的案例,主要方向为sparkSQL函数和自定义函数中的使用。不全,待补充:1、匹配://此方法含义为如果输入age符合正则规则(findAllMatchIn迭代器不为空),则返回本身val calAge = udf((age: String, defyear: String) => { val reg = "^(19[5-9][0-9]|20[0-1][0-9]|2020)$".r
2021-03-25 22:19:08
3610
原创 MySQL-求每个小时停在停车场里车辆的总数量
看到一道sql题目,比较感兴趣,就做了下题目如下:主要思路:使用用户变量+笛卡尔积生成时间维度表通过时间维度表和每次停车信息再做笛卡尔积对时间进行分组求和即可建表如下:代码如下:select substring(tt.dim_time,1,13) as hh,count(*)from (select id, plate_no, from_unixtime(unix_timestamp(t.inttime)),from_unixtime(unix_timestamp(if(t.o
2021-03-24 02:11:55
1362
1
原创 shell脚本一键安装简易版
#!/bin/bash#mysqlRST=`rpm -qa | grep mariadb`if $RST; then yum -y remove $RSTfiyum -y install wgetwget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmyum -y install mysql-serverc
2021-03-23 01:18:34
533
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人