- 博客(13)
- 资源 (5)
- 收藏
- 关注
原创 Scala本地连接带有kerberos的Hive
Scala本地连接带有kerberos的Hive,网上找了很多但是自己实际用起来还是连不上,所有贴上可用的版本。代码中的confPath路径就是实际本地路径,例如项目resources目录下的Kerberos目录:"C:\\UseXXX\\Project\\MY_Projects\\test3\\src\\main\\resources\\Kerberos\\"def initSpark() : SparkConf = { val isWin = System.getProperty
2021-12-22 11:17:23
1128
原创 Shell脚本控制并发执行spark程序
第一次写一个很复杂的Shell为了实现以下功能:1.查询hive状态表,表中根据request_type类型不同,执行数据refresh或者report逻辑。如果发现有refresh,默认插入2条report数据。2.如果同时有数据refresh和report,默认一定要refresh执行完,才能跑report.3.因为这是hive做状态控制,所有之前发现当有前台数据录入此表,后台autosys执行此脚本同时发生时,产生了数据的不一致性。为此修改了逻辑,只会执行一次hive数据查询,即使...
2021-08-06 10:29:55
1296
原创 动态为数值型列设置默认值0
public Dataset<Row> setDefaultOneZero(Dataset<Row> ds,String formName){ StructType structType = ds.schema(); int len = structType.fields().length; String keyStr = global.getMap().get("default.parameter").replaceAll("\\|.
2021-08-06 09:43:58
727
原创 Spark 自定义输出文件格式
MyTextOutputFormat.javaimport org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.com.
2021-07-22 18:48:53
1254
原创 自定义UDAF函数
Java 实现自定义UDAF函数,代码如下:package com.**;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;import org.apache.spark.sql.types.DataType;i
2021-06-29 12:31:44
317
原创 spring boot 配置多个数据库
1. DataSourceConfig.javaimport org.springframework.beans.factory.annotation.Qualifier;import org.springframework.boot.context.properties.ConfigurationProperties;import org.springframework.boot.jdbc.DataSourceBuilder;import org.springframework.context
2021-05-04 19:44:54
178
原创 spark对spark.driver.maxResultSize报错的解决方案
最近有个需求需要union 上千甚至更多的dataset数据,然后cache(),然后count(),在执行count()这个action操作的时候,spark程序报错,如下:org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 16092 tasks (16.0 GB) is bigger than spark.driver.maxResultSize
2020-12-07 21:26:34
6241
原创 Intellij Idea 新建mave依赖的java spark 项目
1. Hadoop环境配置下载hadoop-2.9.2.tar.gz包到本地Windows目录,下载地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.9.2/下载解压后需要在其bin目录下添加hadoop.dll和winutils.exe,对应版本下载地址:https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin2. 新建maven依赖的j.
2020-09-28 11:12:04
249
原创 IntelliJ IDEA 新建Spring Boot项目
1.新建Spring Boot 项目用IntelliJ IDEA新建一个Spring Boot 项目,选择Spring Initializr,如下图:初始项目结构,各目录含义如下:pom文件为依赖管理文件;resources为资源文件夹;statics为静态资源;templates为模板资源;application.properties为配置文件...
2019-11-13 15:26:04
762
原创 Flume+kafka+spark streaming+Redis实时统计广告投放的pv,uv,click,cost
因为业务逻辑的修改,投放数据存入大数据集群中,因此,需要修改之前的业务逻辑,需要实时知道rtb投放的花费情况。环境版本:spark: 2.11-2.4.0-cdh6.2.0kafka: 2.1.0-cdh6.2.0fluem: 1.9.0-cdh6.2.01. Flume配置a1.sources = r1a1.sinks = k1a1.channels = c1...
2019-07-25 14:30:57
1231
原创 Tableau漏斗图制作过程
配置连接CDH上,使用impala查询,kerberos验证的数据源。1 sql语句:select count(*) as '数量' ,'ask' as '名称' from fact_dsp.fact_dsp_bid askwhere concat(ask.dt_y ,'-' , ask.dt_m , '-' , ask.dt_d )= <参数.年月日>union al...
2019-07-25 12:08:41
1647
2
原创 如何触发wpf的TextBox中添加MouseLeftButtonDown事件
如何触发wpf的TextBox的MouseLeftButtonDown事件
2015-12-09 12:51:40
4123
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人