jane3von-优快云博客

Scala本地连接带有kerberos的Hive,网上找了很多但是自己实际用起来还是连不上，所有贴上可用的版本。代码中的confPath路径就是实际本地路径，例如项目resources目录下的Kerberos目录："C:\\UseXXX\\Project\\MY_Projects\\test3\\src\\main\\resources\\Kerberos\\"def initSpark() : SparkConf = { val isWin = System.getProperty

2021-12-22 11:17:23 1168

原创 Shell脚本控制并发执行spark程序

第一次写一个很复杂的Shell为了实现以下功能：1.查询hive状态表，表中根据request_type类型不同，执行数据refresh或者report逻辑。如果发现有refresh，默认插入2条report数据。2.如果同时有数据refresh和report，默认一定要refresh执行完，才能跑report.3.因为这是hive做状态控制，所有之前发现当有前台数据录入此表，后台autosys执行此脚本同时发生时，产生了数据的不一致性。为此修改了逻辑，只会执行一次hive数据查询，即使...

2021-08-06 10:29:55 1363

原创动态为数值型列设置默认值0

public Dataset<Row> setDefaultOneZero(Dataset<Row> ds,String formName){ StructType structType = ds.schema(); int len = structType.fields().length; String keyStr = global.getMap().get("default.parameter").replaceAll("\\|.

2021-08-06 09:43:58 766

原创 Spark 自定义输出文件格式

MyTextOutputFormat.javaimport org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.com.

2021-07-22 18:48:53 1336

原创自定义UDAF函数

Java 实现自定义UDAF函数，代码如下：package com.**;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;import org.apache.spark.sql.types.DataType;i

2021-06-29 12:31:44 370

原创 spring boot 配置多个数据库

1. DataSourceConfig.javaimport org.springframework.beans.factory.annotation.Qualifier;import org.springframework.boot.context.properties.ConfigurationProperties;import org.springframework.boot.jdbc.DataSourceBuilder;import org.springframework.context

2021-05-04 19:44:54 216

原创 spark对spark.driver.maxResultSize报错的解决方案

最近有个需求需要union 上千甚至更多的dataset数据，然后cache(),然后count(),在执行count(）这个action操作的时候，spark程序报错，如下：org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 16092 tasks (16.0 GB) is bigger than spark.driver.maxResultSize

2020-12-07 21:26:34 6426

原创 Intellij Idea 新建mave依赖的java spark 项目

1. Hadoop环境配置下载hadoop-2.9.2.tar.gz包到本地Windows目录，下载地址：http://archive.apache.org/dist/hadoop/core/hadoop-2.9.2/下载解压后需要在其bin目录下添加hadoop.dll和winutils.exe，对应版本下载地址：https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin2. 新建maven依赖的j.

2020-09-28 11:12:04 285

原创 IntelliJ IDEA 新建Spring Boot项目

1.新建Spring Boot 项目用IntelliJ IDEA新建一个Spring Boot 项目，选择Spring Initializr，如下图：初始项目结构，各目录含义如下：pom文件为依赖管理文件；resources为资源文件夹；statics为静态资源；templates为模板资源；application.properties为配置文件...

2019-11-13 15:26:04 885

原创 Flume+kafka+spark streaming+Redis实时统计广告投放的pv,uv,click,cost

因为业务逻辑的修改，投放数据存入大数据集群中，因此，需要修改之前的业务逻辑，需要实时知道rtb投放的花费情况。环境版本：spark: 2.11-2.4.0-cdh6.2.0kafka: 2.1.0-cdh6.2.0fluem: 1.9.0-cdh6.2.01. Flume配置a1.sources = r1a1.sinks = k1a1.channels = c1...

2019-07-25 14:30:57 1290

原创 Tableau漏斗图制作过程

配置连接CDH上，使用impala查询，kerberos验证的数据源。1 sql语句：select count(*) as '数量' ,'ask' as '名称' from fact_dsp.fact_dsp_bid askwhere concat(ask.dt_y ,'-' , ask.dt_m , '-' , ask.dt_d )= <参数.年月日>union al...

2019-07-25 12:08:41 1722 2