yostkevin-优快云博客

原创 oracle 数据库与服务、实例与SID、表空间、用户与表模式

就是一个数据库的标识，在安装时就要想好，以后一般不修改，修改起来也麻烦，因为数据库一旦安装，数据库名就写进了控制文件，数据库表，很多地方都会用到这个数据库名。数据库实例名是用于和操作系统进行联系的标识，就是说数据库和操作系统之间的交互用的是数据库实例名。在一般情况下，数据库名和实例名是一对一的关系，但如果在oracle并行服务器架构(即oracle实时应用集群)中，数据库名和实例名是一对多的关系。Oracle数据库是通过表空间来存储物理表的，一个数据库实例可以有N个表空间，一个表空间下可以有N张表。

2024-05-11 12:14:51 1081

原创数据治理概念

数据治理

2022-07-31 23:06:18 85

原创 spark 面试题

1.Map和MapPartition的区别，foreach和foreachPartition的区别前者对应的函数一次只计算1条数据，后者一次计算一个分区的数据使用场景：前者适于内存有限、分区数据量又特别大的环境。后者适用内存足够，分区数据量可接受的环境。优先选择后者，批处理效率更高。MapPartition是transformation算子，懒加载，有返回值，foreachPartition是action算子无返回值一般用MapPartition做转换，用foreachParti

2022-04-12 16:59:29 74

原创 sparkStreaming demo

package com.testimport org.apache.spark.streaming.{Duration, Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}/** * @author kevinwyu@deloitte.com.cn * @create 2022-04-12 15:57 * @description * */object SparkStreamingDe.

2022-04-12 16:58:19 433

原创 win10 go环境配置

1. 下载&安装 SDKhttps://golang.google.cn/dl/2.配置GOROOT(bin目录)3.配置GOPATH (工作目录)4.验证5.idea安装插件6.idea测试

2022-04-11 17:37:15 1046

原创 hive 动态分区实战

1.建表CREATE TABLE `dws.dws_transaction_header_np`( `oneid` string COMMENT '用户唯一id', `transaction_header_id` string COMMENT '交易订单号(包括下单和退款的订单号)', `transaction_date` date COMMENT '交易日期', `cdp_data_source` string COMMENT 'cdp外部数据来源', `create_time`

2022-04-07 17:44:19 2211 1

原创 sqlserver获取上上月指定日期、,上上月最后一天，上月第一天，上月最后一天

SELECT CONVERT(varchar(10), CONVERT(varchar(8),dateadd(month,-2,getdate()),23)+'21' , 120)+' 00:00:00',CONVERT(varchar(10),dateadd(dd,-day(dateadd(month,2,getdate())),dateadd(month,-1,getdate())), 120)+' 23:59:59', CONVERT(varchar(10),dateadd(dd,-day(d..

2022-03-16 18:56:13 4713

原创 java-封装、继承、多态

一.继承中的super关键字与this关键字1.理解为：父类的2.super可以用来调用父类的属性、构造器、方法3.super的使用3.1 当子类声明了一个属性和父类相同时，如果在子类的构造器或方法中需要使用父类的那个属性，则需要用super显示调用父类属性3.2 当子类重写了父类的某方法时，如果在子类的构造器或方法中需要使用父类中的该方法，则需要用super显示调用父类方法。3.3 子类的构造器中显示调用父类中声明的指定构造器：super(形参)，且必须声明在子类构造器的首..

2022-02-17 17:09:36 237

原创 sql使用技巧3

数据库环境：mysql,hive,sqlserver1. group by 1 order by 2解析：按select 第一列分组，第二列排序注意:1.hive不支持group by 1 这种语法,但是支持order by 1这种语法2.虽然可以取巧，但是在正式的代码开发中不推荐使用这种语法，因为可读性低，不利于代码维护。2. SELECT count(null),sum(null),count(0),sum(0),count(1),sum(1),count(2),sum

2022-02-14 15:20:07 1508

原创 hadoop 配置文件

1.[GSPAgent@azurepana01 hadoop]$ cd $HADOOP_HOME/etc/hadoop[GSPAgent@azurepana01 hadoop]$ cat core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apa

2022-02-07 12:11:52 82

原创 dolphinscheduler的正确打开方式

话不多说，直接上图，见图知意：

2021-12-07 10:52:24 72

原创 hive array类型字段建表

-- test_databases.test_imp07 definitionCREATE EXTERNAL TABLE `test_databases.test_imp07`( `exps` array<struct<id:string,l:string>> COMMENT 'ceshi')ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPE...

2021-08-31 17:20:57 61

原创 java 读jar外部文件

public static final String DEFAULTOSSCONFIG = System.getProperty("user.home") + "/.ossutilconfig"; String ossConfig = this.writerSliceConfig.getString(Key.OSSCONFIG, DEFAULTOSSCONFIG); OssOutFileInputStreamUtil.validate(OssOutFileIn...

2021-08-29 15:09:08 130

原创字符串加密 demo

1. AESpackage com.cdp.drs.utils;/** * Created by kevinwyu@deloitte.com.cn */import org.apache.commons.codec.binary.Base64;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springframework.stereotype.Service;import javax.crypto

2021-08-29 14:55:19 53

原创 yarn 介绍与spark2 提交

1.图2.资源分配1.可扩展性2.可用性3.利用率：tasktraker静态分配若干固定的map slot和reduce slot ，会出现仅有map slot可用reduce slot不可用，造成reduce等待的情况，yarn中一个节点管理器管理一个资源池，可不断回收重用。4.多租户：向除了mapreduce以外的其他分布式应用开放了h...

2021-08-25 10:31:09 177 1

原创 hive 外部表、内部表、静态分区、动态分区、临时表

内外部表区别1.内部表由hive自己管理数据(所以hive删表会删元数据和主数据)，(主)数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse）;外部表数据由HDFS管理(所以hive删表会删元数据，但不会删主数据)，(主)数据存储位置由自己建表时指定（如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的数据库名/表名创建一个文件夹，并将属于这个表的数据存放在这里）。h..

2021-08-15 16:17:57 1828

原创 spark 编程demo

1. 项目结构2. pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0...

2021-08-08 18:11:18 146

原创 java jdbc 单条insert 插入批量数据

背景现在java jdbc大多数批量插入都是使用addBatch()来实现的。hive表不支持addBatch()，需要使用单条sql实现批量插入。步骤1. pom.xml <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> &l

2021-08-08 17:55:35 287

原创 datax二次开发rdbms插件支持直接插入hive表

目录一. 背景二次开发思路二次开发步骤2.1 上传hive驱动到rdbmsReader、rdbmsWriter插件的lib目录2.2 修改plugin.json配置文件2.3 从git clone源码并在最外层pom.xml注释掉其他组件，只保留 rdbmswriter模块2.4 原码测试能否编译打包2.5 修改源码2.5.1 新增CommonRdbmsWriterOverride.java类(替代CommonRdbmsWriter类)2.5.2 修改Rdbms..

2021-08-08 17:41:35 486

原创 idea配置 HADOOP_HOME

1.下载winutils.exehttps://github.com/vhma/winutils2.去集群环境把hadoop/3.2.1-1.2.0/package 下面的文件夹压缩，然后拿出来，解压，并配置好windows 环境变量或者去网上下相关hadoop环境3. 解压winutils.master.zip 进入与集群环境一样的版本里面的bin目录，把里面的所有文件都拷贝一份到第二步解压的bin目录下4.重启idea，启动spark 程序即可。...

2021-07-23 18:27:37 155

原创 java获取linux系统信息、读取linux外部配置文件

一.Java获取linux或windows系统信息（用户目录，临时目录等）//当前用户主目录String userPath = System.getProperty("user.home"); java.version Java运行时环境版本 java.vendor Java运行时环境供应商 java.vendor.url Java供应商的 URL java....

2021-07-11 19:00:47 2151

原创 hive小文件解决

一产生原因1.1 数据增量多批次插入，每批次会产生 partitions*reducetasks 个小文件1.2 hive或spark 数据分析 reduce task个数过多。二解决方法2.1 hadoop archivehive> set hive.archive.enabled=true;hive> set hive.archive.har.parentdir.settable=true;hive> set har.partfile.size=1099.

2021-07-08 17:08:16 334

原创 greenplum 运维监控参数配置

一 . 状态监控1.1gpstate命令参数作用 gpstate -b => 显示简要状态gpstate -c => 显示主镜像映射gpstart -d => 指定数据目录（默认值：$MASTER_DATA_DIRECTORY）gpstate -e => 显示具有镜像状态问题的片段gpstate -f => 显示备用主机详细信息gpstate -i => 显示GRIPLUM数据库版本gpstate -m => 显示镜像实例同.

2021-07-05 17:08:17 1261

原创 mysql模拟造日志数据

-- sakila.payment_1 definition--模拟超市交易日志drop table sakila.payment_1;CREATE TABLE sakila.`payment_1` ( `payment_id` smallint(5) unsigned NOT NULL AUTO_INCREMENT, `customer_id` varchar(255) NOT NULL, `staff_id` varchar(255) NOT NULL, `product_i.

2021-07-02 16:23:01 152

原创 flink on zepplin 在cdh的yarn上运行

1. 准备相关包并解压和启动root@cdhslave02 flink]# pwd/root/soft/flink[root@cdhslave02 flink]# lsflink-1.10.0 flink-1.10.0-bin-scala_2.11.tgz zeppelin-0.9.0-SNAPSHOT zeppelin-0.9.0-SNAPSHOT.tar.gz[root@cdhslave02 flink]# vi zeppelin-0.9.0-SNAPSHOT/conf/zeppe

2021-05-13 14:32:33 198

原创 sql优化

一、SQL的执行顺序顺序：FROM——ON——JOIN——WHERE——GROUP BY——SUM、COUNT——HAVING——SELECT——DISTINCT——ORDER BY——LIMIT与写SQL的顺序不同，SQL的执行顺序并不是从select开始，而是从from开始1、FROM：先去获取from里面的表，拿到对应的数据，生成虚拟表1。2、ON：对虚拟表1应用ON筛选，符合条件的数据生成虚拟表2。3、JOIN：根据JOIN的类型去执行相对应的操作，获取对应的数据，生成虚拟表3。

2021-05-13 14:30:59 100

原创 2021 新玩意

1. 任务调度https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/quick-start.html2.spark3.x 性能优化3. 数据湖 hudi4.pulsar5. kylin 3.1.2

2021-05-06 21:03:50 109

原创数据仓库与数据湖相关总结

一、数据仓库分层：DS:数据源层 (mysql,pg(增删改查日志),kafka(机器运行日志、点击日志))，同一类日志可以是多张表结构相似的表(日志表：网页日志表，抓拍日志表，手机信号日志表，h5日志表，小程序日志表)staging:数据预处理层，存储每天(批次)的增量，表结构和ods层一样ods:操作数据层，存储所有清洗(etl)后的基础数据，表结构基于DS但不完全同于DS（ods日志表对应 DS 网页日志表，抓拍日志表，手机信号日志表，h5日志表，小程序日志表）。dd:脏数据层，..

2021-05-06 17:07:54 611

原创连续时间段去重

--连续时间段去重，并求关联轨迹--入参表(小表)CREATE table public.test1(id int,name varchar,record_time timestamp,place_id int);--日志记录表(大表)CREATE table public.test(id int,name varchar,record_time timestamp,place_id int);INSERT INTO public.test1 (id,name,record_time,pla.

2021-04-29 16:10:34 552

原创 JAVA学习-spring pom

1.pom文件中${project.basedir}${project.basedir}的值是maven自带的，不是配置的。它默认是pom文件的上一级。2.pom文件中pakaging打包类型 <package>pom</package>默认是jar，父模块需显示指定为pom，子(部署)模块按需指定为war或jar3. modules作为父级项目，还有一个重要的属性，那就是modules，通过modules标签将项目的所有子项目引用进来，在build父级..

2021-02-20 17:39:23 420

原创 idea 连接github

idea设置1.git设置代理yuwei@cqopc-yuwei MINGW64 /d/project/flink-1.11 (master)$ git config --global http.proxy 'http://cqproxy01.unisinsight.com:8080'yuwei@cqopc-yuwei MINGW64 /d/project/flink-1.11 (master)$ git config --global https.proxy 'http://.

2020-11-07 10:51:59 142 1

原创 java 用Set对结果集按指定key去重并排序

使用场景：在数据量比较大的情况下，某些开窗函数去重会非常耗时，但是用group by+join 又去不干净，这时考虑用group by+join +java set 去重的方法思路：利用重新java类的equals和hashcode方法指定key，然后通过set去重1.测试数据2条，同一个personId 在同一时间(snap_time)有两条数据（但是这两条数据的record_id不一样，导致原始数据库没有去到重）INSERT INTO dts_daas.res_time_space (.

2020-11-05 14:42:54 1309

原创 pgsql 使用技巧

1.CASCADE 级联删除，如果表或模式或数据库有序列、分区相关依赖时，需要修改表或模式或数据库，则使用它DROP SCHEMA viid_facestatic CASCADE2.pgsql隐藏字段ctid，一般用于去重3. pg 表自连接使用场景3.1 有一张卡口表求距离A卡口L米的所有卡口ID-- 查询以卡口ID为1为圆心，半径为100000米范...

2020-09-15 17:37:06 2330

原创 flink1.10 sql 例子

ServiceKafka/* * www.unisinsight.com Inc. * Copyright (c) 2018 All Rights Reserved */package com.test.flink.service.sql;import org.apache.flink.api.common.time.Time;import org.apache.flink.streaming.api.TimeCharacteristic;import org.apache.flink

2020-08-04 14:15:32 472

原创数据结构-双向链表、栈、队列、优先队列与堆

LinkedList ：双向链表在java中的实现实现了deque、queue 接口package com;import java.util.*;public class test { public static void main(String[] args) { String numberStr = ""; // 链表 LinkedList linkedList = new LinkedList(); linke

2020-07-18 17:32:56 104 1

原创 teamviewer

tv下载：https://www.teamviewer.cn/cn/download/windows/

2020-07-04 07:05:09 160

原创 MPP update优化一

前言：对于列式存储直接update性能低下，可采用update+insert方式或者delete+insert 方式实现更新操作例子：套牌车的一个测试例子 -- create or insert 每个车牌的最近一条记录对应的表 29.361s create table dts_vehicle_resource.fake_plate_info_sp as SELECT a.plateno,a.platecolor,a.tollgateid,a.passtime ,ST_Geograp

2020-06-01 15:10:15 772

原创 flume+file+kafka

一.测试在某个文件里面追加数据，然后流到flume，再流到kafka1.配置flume# Please paste flume.conf here. Example:# Sources, channels, and sinks are defined per# agent name, in this case 'tier1'.tier1.sources = source1 fi...

2020-05-24 12:06:54 333

原创 spark 分区提交调优

觉得还行的话，点个赞哟。一spark RDD分区原则在Spark的Rdd中，Rdd默认是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多，但是每个Rdd的数据量比较小，则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。二.coalesce和repartition ...

2020-05-24 12:04:53 1661

原创 pg流复制

一.异步流复制1.创建用于流复制的角色(在主备节点)# 创建用于流复制的角色[root@cdhslave01 pgdata]# su - postgres[postgres@cdhslave01 ~]$ psqlpostgres=#create role replica login replication encrypted password 'replica';在主库2...

2020-05-24 12:04:05 462