- 博客(127)
- 资源 (6)
- 收藏
- 关注
原创 oracle 数据库与服务、实例与SID、表空间、用户与表模式
就是一个数据库的标识,在安装时就要想好,以后一般不修改,修改起来也麻烦,因为数据库一旦安装,数据库名就写进了控制文件,数据库表,很多地方都会用到这个数据库名。数据库实例名是用于和操作系统进行联系的标识,就是说数据库和操作系统之间的交互用的是数据库实例名。在一般情况下,数据库名和实例名是一对一的关系,但如果在oracle并行服务器架构(即oracle实时应用集群)中,数据库名和实例名是一对多的关系。Oracle数据库是通过表空间来存储物理表的,一个数据库实例可以有N个表空间,一个表空间下可以有N张表。
2024-05-11 12:14:51
1081
原创 spark 面试题
1.Map和MapPartition的区别,foreach和foreachPartition的区别前者对应的函数一次只计算1条数据,后者一次计算一个分区的数据使用场景:前者适于内存有限、分区数据量又特别大的环境。后者适用内存足够,分区数据量可接受的环境。优先选择后者,批处理效率更高。MapPartition是transformation算子,懒加载,有返回值,foreachPartition是action算子无返回值一般用MapPartition做转换,用foreachParti
2022-04-12 16:59:29
74
原创 sparkStreaming demo
package com.testimport org.apache.spark.streaming.{Duration, Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}/** * @author kevinwyu@deloitte.com.cn * @create 2022-04-12 15:57 * @description * */object SparkStreamingDe.
2022-04-12 16:58:19
433
原创 win10 go环境配置
1. 下载&安装 SDKhttps://golang.google.cn/dl/2.配置GOROOT(bin目录)3.配置GOPATH (工作目录)4.验证5.idea安装插件6.idea测试
2022-04-11 17:37:15
1046
原创 hive 动态分区实战
1.建表CREATE TABLE `dws.dws_transaction_header_np`( `oneid` string COMMENT '用户唯一id', `transaction_header_id` string COMMENT '交易订单号(包括下单和退款的订单号)', `transaction_date` date COMMENT '交易日期', `cdp_data_source` string COMMENT 'cdp外部数据来源', `create_time`
2022-04-07 17:44:19
2211
1
原创 sqlserver获取上上月指定日期、,上上月最后一天,上月第一天,上月最后一天
SELECT CONVERT(varchar(10), CONVERT(varchar(8),dateadd(month,-2,getdate()),23)+'21' , 120)+' 00:00:00',CONVERT(varchar(10),dateadd(dd,-day(dateadd(month,2,getdate())),dateadd(month,-1,getdate())), 120)+' 23:59:59', CONVERT(varchar(10),dateadd(dd,-day(d..
2022-03-16 18:56:13
4713
原创 java-封装、继承、多态
一.继承中的super关键字与this关键字1.理解为:父类的2.super可以用来调用父类的属性、构造器、方法3.super的使用3.1 当子类声明了一个属性和父类相同时,如果在子类的构造器或方法中需要使用父类的那个属性,则需要用super显示调用父类属性3.2 当子类重写了父类的某方法时,如果在子类的构造器或方法中需要使用父类中的该方法,则需要用super显示调用父类方法。3.3 子类的构造器中显示调用父类中声明的指定构造器 :super(形参),且必须声明在子类构造器的首..
2022-02-17 17:09:36
237
原创 sql使用技巧3
数据库环境:mysql,hive,sqlserver1. group by 1 order by 2解析:按select 第一列 分组,第二列排序注意:1.hive不支持group by 1 这种语法,但是支持order by 1这种语法2.虽然可以取巧,但是在正式的代码开发中不推荐使用这种语法,因为可读性低,不利于代码维护。2. SELECT count(null),sum(null),count(0),sum(0),count(1),sum(1),count(2),sum
2022-02-14 15:20:07
1508
原创 hadoop 配置文件
1.[GSPAgent@azurepana01 hadoop]$ cd $HADOOP_HOME/etc/hadoop[GSPAgent@azurepana01 hadoop]$ cat core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apa
2022-02-07 12:11:52
82
原创 hive array类型字段 建表
-- test_databases.test_imp07 definitionCREATE EXTERNAL TABLE `test_databases.test_imp07`( `exps` array<struct<id:string,l:string>> COMMENT 'ceshi')ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPE...
2021-08-31 17:20:57
61
原创 java 读jar外部文件
public static final String DEFAULTOSSCONFIG = System.getProperty("user.home") + "/.ossutilconfig"; String ossConfig = this.writerSliceConfig.getString(Key.OSSCONFIG, DEFAULTOSSCONFIG); OssOutFileInputStreamUtil.validate(OssOutFileIn...
2021-08-29 15:09:08
130
原创 字符串加密 demo
1. AESpackage com.cdp.drs.utils;/** * Created by kevinwyu@deloitte.com.cn */import org.apache.commons.codec.binary.Base64;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springframework.stereotype.Service;import javax.crypto
2021-08-29 14:55:19
53
原创 yarn 介绍与spark2 提交
1.图2.资源分配1.可扩展性2.可用性3.利用率:tasktraker静态分配若干固定的map slot和reduce slot ,会出现仅有map slot可用reduce slot不可用,造成reduce等待的情况,yarn中一个节点管理器管理一个资源池,可不断回收重用。4.多租户:向除了mapreduce以外的其他分布式应用开放了h...
2021-08-25 10:31:09
177
1
原创 hive 外部表、内部表、静态分区、动态分区、临时表
内外部表区别1.内部表由hive自己管理数据(所以hive删表会删元数据和主数据),(主)数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse);外部表数据由HDFS管理(所以hive删表会删元数据,但不会删主数据),(主)数据存储位置由自己建表时指定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的数据库名/表名创建一个文件夹,并将属于这个表的数据存放在这里)。h..
2021-08-15 16:17:57
1828
原创 spark 编程demo
1. 项目结构2. pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0...
2021-08-08 18:11:18
146
原创 java jdbc 单条insert 插入批量数据
背景现在java jdbc大多数批量插入都是使用addBatch()来实现的。hive表不支持addBatch(),需要使用单条sql实现批量插入。步骤1. pom.xml <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> &l
2021-08-08 17:55:35
287
原创 datax二次开发rdbms插件 支持直接插入hive表
目录一. 背景二次开发思路二次开发步骤2.1 上传hive驱动到rdbmsReader、rdbmsWriter插件的lib目录2.2 修改plugin.json配置文件2.3 从git clone源码 并在最外层pom.xml注释掉其他组件,只保留 rdbmswriter模块2.4 原码测试能否编译打包2.5 修改源码2.5.1 新增CommonRdbmsWriterOverride.java类(替代CommonRdbmsWriter类)2.5.2 修改Rdbms..
2021-08-08 17:41:35
486
原创 idea配置 HADOOP_HOME
1.下载winutils.exehttps://github.com/vhma/winutils2.去集群环境把hadoop/3.2.1-1.2.0/package 下面的文件夹压缩,然后拿出来,解压,并配置好windows 环境变量 或者去网上下相关hadoop环境3. 解压winutils.master.zip 进入与集群环境一样的版本里面的bin目录,把里面的所有文件都拷贝一份到 第二步解压的bin目录下4.重启idea,启动spark 程序即可。...
2021-07-23 18:27:37
155
原创 java获取linux系统信息、读取linux外部配置文件
一.Java获取linux或windows系统信息(用户目录,临时目录等)//当前用户主目录String userPath = System.getProperty("user.home"); java.version Java运行时环境版本 java.vendor Java运行时环境供应商 java.vendor.url Java供应商的 URL java....
2021-07-11 19:00:47
2151
原创 hive小文件解决
一 产生原因1.1 数据增量多批次插入,每批次会产生 partitions*reducetasks 个小文件1.2 hive或spark 数据分析 reduce task个数过多。二 解决方法2.1 hadoop archivehive> set hive.archive.enabled=true;hive> set hive.archive.har.parentdir.settable=true;hive> set har.partfile.size=1099.
2021-07-08 17:08:16
334
原创 greenplum 运维监控参数配置
一 . 状态监控1.1gpstate命令 参数 作用 gpstate -b => 显示简要状态gpstate -c => 显示主镜像映射gpstart -d => 指定数据目录(默认值:$MASTER_DATA_DIRECTORY)gpstate -e => 显示具有镜像状态问题的片段gpstate -f => 显示备用主机详细信息gpstate -i => 显示GRIPLUM数据库版本gpstate -m => 显示镜像实例同.
2021-07-05 17:08:17
1261
原创 mysql模拟造日志数据
-- sakila.payment_1 definition--模拟超市交易日志drop table sakila.payment_1;CREATE TABLE sakila.`payment_1` ( `payment_id` smallint(5) unsigned NOT NULL AUTO_INCREMENT, `customer_id` varchar(255) NOT NULL, `staff_id` varchar(255) NOT NULL, `product_i.
2021-07-02 16:23:01
152
原创 flink on zepplin 在cdh的yarn上运行
1. 准备相关包 并解压和启动root@cdhslave02 flink]# pwd/root/soft/flink[root@cdhslave02 flink]# lsflink-1.10.0 flink-1.10.0-bin-scala_2.11.tgz zeppelin-0.9.0-SNAPSHOT zeppelin-0.9.0-SNAPSHOT.tar.gz[root@cdhslave02 flink]# vi zeppelin-0.9.0-SNAPSHOT/conf/zeppe
2021-05-13 14:32:33
198
原创 sql优化
一、SQL的执行顺序顺序:FROM——ON——JOIN——WHERE——GROUP BY——SUM、COUNT——HAVING——SELECT——DISTINCT——ORDER BY——LIMIT与写SQL的顺序不同,SQL的执行顺序并不是从select开始,而是从from开始1、FROM:先去获取from里面的表,拿到对应的数据,生成虚拟表1。2、ON:对虚拟表1应用ON筛选,符合条件的数据生成虚拟表2。3、JOIN:根据JOIN的类型去执行相对应的操作,获取对应的数据,生成虚拟表3。
2021-05-13 14:30:59
100
原创 2021 新玩意
1. 任务调度https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/quick-start.html2.spark3.x 性能优化3. 数据湖 hudi4.pulsar5. kylin 3.1.2
2021-05-06 21:03:50
109
原创 数据仓库与数据湖相关总结
一、数据仓库分层:DS:数据源层 (mysql,pg(增删改查日志),kafka(机器运行日志、点击日志)),同一类日志可以是多张表结构相似的表(日志表:网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)staging:数据预处理层,存储每天(批次)的增量,表结构和ods层一样ods:操作数据层,存储所有清洗(etl)后的基础数据,表结构基于DS但不完全同于DS(ods日志表 对应 DS 网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)。dd:脏数据层,..
2021-05-06 17:07:54
611
原创 连续时间段去重
--连续时间段去重,并求关联轨迹--入参表(小表)CREATE table public.test1(id int,name varchar,record_time timestamp,place_id int);--日志记录表(大表)CREATE table public.test(id int,name varchar,record_time timestamp,place_id int);INSERT INTO public.test1 (id,name,record_time,pla.
2021-04-29 16:10:34
552
原创 JAVA学习-spring pom
1.pom文件中${project.basedir}${project.basedir}的值是maven自带的,不是配置的。它默认是pom文件的上一级。2.pom文件中pakaging打包类型 <package>pom</package>默认是jar,父模块需显示指定为pom,子(部署)模块按需指定为war或jar3. modules作为父级项目,还有一个重要的属性,那就是modules,通过modules标签将项目的所有子项目引用进来,在build父级..
2021-02-20 17:39:23
420
原创 idea 连接github
idea设置1.git设置代理yuwei@cqopc-yuwei MINGW64 /d/project/flink-1.11 (master)$ git config --global http.proxy 'http://cqproxy01.unisinsight.com:8080'yuwei@cqopc-yuwei MINGW64 /d/project/flink-1.11 (master)$ git config --global https.proxy 'http://.
2020-11-07 10:51:59
142
1
原创 java 用Set对结果集按指定key去重并排序
使用场景:在数据量比较大的情况下,某些开窗函数去重会非常耗时,但是用group by+join 又去不干净,这时考虑用group by+join +java set 去重的方法思路:利用重新java类的equals和hashcode方法指定key,然后通过set去重1.测试数据2条,同一个personId 在同一时间(snap_time)有两条数据 (但是这两条数据的record_id不一样,导致原始数据库没有去到重)INSERT INTO dts_daas.res_time_space (.
2020-11-05 14:42:54
1309
原创 pgsql 使用技巧
1.CASCADE 级联删除,如果表或模式或数据库有序列、分区相关 依赖时,需要修改表或模式或数据库,则使用它DROP SCHEMA viid_facestatic CASCADE2.pgsql隐藏字段ctid,一般用于去重3. pg 表自连接使用场景3.1 有一张卡口表 求距离A卡口L米的所有卡口ID-- 查询以卡口ID为1为圆心,半径为100000米 范...
2020-09-15 17:37:06
2330
原创 flink1.10 sql 例子
ServiceKafka/* * www.unisinsight.com Inc. * Copyright (c) 2018 All Rights Reserved */package com.test.flink.service.sql;import org.apache.flink.api.common.time.Time;import org.apache.flink.streaming.api.TimeCharacteristic;import org.apache.flink
2020-08-04 14:15:32
472
原创 数据结构-双向链表、栈、队列、优先队列与堆
LinkedList :双向链表在java中的实现实现了deque、queue 接口package com;import java.util.*;public class test { public static void main(String[] args) { String numberStr = ""; // 链表 LinkedList linkedList = new LinkedList(); linke
2020-07-18 17:32:56
104
1
原创 MPP update优化一
前言:对于列式存储直接update性能低下,可采用update+insert方式或者delete+insert 方式 实现更新操作例子:套牌车的一个测试例子 -- create or insert 每个车牌的最近一条记录 对应的表 29.361s create table dts_vehicle_resource.fake_plate_info_sp as SELECT a.plateno,a.platecolor,a.tollgateid,a.passtime ,ST_Geograp
2020-06-01 15:10:15
772
原创 flume+file+kafka
一.测试在某个文件里面追加数据,然后流到flume,再流到kafka1.配置flume# Please paste flume.conf here. Example:# Sources, channels, and sinks are defined per# agent name, in this case 'tier1'.tier1.sources = source1 fi...
2020-05-24 12:06:54
333
原创 spark 分区 提交 调优
觉得还行的话,点个赞哟。一spark RDD分区原则在Spark的Rdd中,Rdd默认是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。二.coalesce和repartition ...
2020-05-24 12:04:53
1661
原创 pg流复制
一.异步流复制1.创建用于流复制的角色(在主备节点)# 创建用于流复制的角色[root@cdhslave01 pgdata]# su - postgres[postgres@cdhslave01 ~]$ psqlpostgres=#create role replica login replication encrypted password 'replica';在主库2...
2020-05-24 12:04:05
462
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人