max_hello-优快云博客

原创编译metabase

Linux Centos7 配置Metabase编译打包环境安装Oracle JDK1.8（如果已经安装，则可以省略此步骤，必须是Oracle JDK）在线下载Oracle JDK 1.8 将下载好的tar包放入linux目录下2、解压tar进行安装tar -zxvf jdk-8u212-linux-x64.tar.gz3、查看JDK是否安装成功java -version...

2023-01-11 16:38:36 840 1

原创 kerberos认证 flink 写入hive hdfs hudi hbase 配置总结

kerberos认证 flink 写入hive hdfs hudi hbase 配置总结

2022-11-29 14:15:36 177

原创 kerberos on yarn sink hbase

kerberos on yarn sink hbase

2022-11-15 12:38:42 63

我们先了解一下数据仓库架构的演变过程，本文主要从五个方面进行介绍数据仓库概念离线大数据架构 Lambda 架构 Kappa 架构 Lambda 架构与 Kappa 架构的对比 1 数据仓库概念数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给..

2022-03-14 15:09:53 2026

原创 TortoiseGit-git工具

git小乌龟,git工具，贼好用下载地址Download – TortoiseGit – Windows Shell Interface to Git

2022-01-26 14:42:44 326

原创批量复制文件，批量改文件名

工作中遇到jar包漏洞问题，需要批量更换，减少不少工作量和错误概率#!/bin/bashsuffix=".bak"source="/home/hdfs/opt/test.sh"for file in `find /home/hdfs/opt/ -type f -name 'pyflink.zip'`do newfile=`echo $file$suffix` echo $file mv $file $newfile targe

2021-09-03 15:33:03 243

原创 mysql表结构转clickhouse

public static String changeMysqlTableToClickHouse(String createTable) { String tables = createTable; String[] rows = tables.split("\n"); String replaceTables = ""; int i = 0; String partition = ""; Strin...

2021-06-03 11:53:30 530

转载 kafka手动修改消费者偏移量

文阐述如何使用Kafka自带的kafka-consumer-groups.sh脚本随意设置消费者组(consumer group)的位移。需要特别强调的是，这是0.11.0.0版本提供的新功能且只适用于新版本consumer。0.11.0.0版本丰富了kafka-consumer-groups脚本的功能，用户可以直接使用该脚本很方便地为已有的consumer group重新设置位移，但前提必须是consumer group必须是inactive的，即不能是处于正在工作中的状态。确定top.

2021-05-20 05:55:37 6511

原创 metabase编译

Linux Centos7 配置Metabase编译打包环境安装Oracle JDK1.8（如果已经安装，则可以省略此步骤，必须是Oracle JDK）在线下载Oracle JDK 1.8 将下载好的tar包放入linux目录下2、解压tar进行安装tar -zxvf jdk-8u212-linux-x64.tar.gz3、查看JDK是否安装成功java -version4、编辑 /etc/profilevim /etc/profile i 进入编辑模...

2021-02-03 15:21:20 486

原创查看kafka消息消费情况

查看主题命令展示topic列表./kafka-topics.sh --list --zookeeper 172.18.153.12:2188描述topic./kafka-topics.sh --describe --zookeeper 172.18.153.12:2188 --topic test查看topic某分区偏移量最大（小）值./kafka-run-class.sh kafka.tools.GetOffsetShell --topic test --time -1 --bro

2021-01-28 15:43:49 4321

转载 Nginx=浏览器错误 Failed to load resource: net::ERR_INCOMPLETE_CHUNKED_ENCODING

使用Nginx代理的服务，一直使用正常，突然昨天就访问不了了；通过IP访问和端口能正常访问。原本以为是请求头文件过大导致资源未加载完问题；然后修改了Tomcat中配置中的请求头文件，修改后依然无效，浏览器中还是报如下错误：以上问题原因：当代理文件大小超过配置的proxy_temp_file_write_size值时，nginx会将文件写入到临时目录下（默认为/proxy_temp）。如果nginx中/proxy_temp过大或者没有权限，就写不进去。解决一：直接删除Nginx

2020-11-30 15:27:18 1341

原创 spark RDD[Row] 字段太多优化处理

val buffer: mutable.Buffer[Object] = Row.unapplySeq(row).get.map(_.asInstanceOf[Object]).toBuffer buffer.append(要加的字段) val schema: StructType = row.schema.add("aaa", StringType)....

2019-12-13 10:21:29 1412

原创 java 判断点是否在多边形内部

maven依赖<dependency> <groupId>com.vividsolutions</groupId> <artifactId>jts</artifactId> <version>1.13</version></dependency> public s...

2019-11-15 10:20:22 1297

转载 Yearning 介绍(SQL审核平台)

介绍Yearning SQL 审计平台基于Vue.js与Django的整套mysql-sql审核平台解决方案。提供基于Inception的SQL检测及执行。GitHub：https://github.com/cookieY/Yearning文档：https://cookiey.github.io/Yearning-document/安装部署（centos6.8）1、Ng...

2019-10-24 13:59:42 2672

原创 Apache atlas集成CDH（hiveserver2和客户端）管理元数据

Apache atlas 的作用和概念不再陈述地址；官方文档：atlas安装文档；鄙人编译安装的是2.0的atlas；一、CDH上集成atlas；首先在CDH hive配置参数如图：hive环境变量配置hive-hook的相关jar包hive-hook相关jar：看图更贴切：报错query: java.lang.NoClassDefFoundError: Co...

2019-10-17 11:30:53 2601 10

原创 yarn rest接口监控mr spark 任务

yarn rest api :yarn rest apisparkstreaming消息延迟监控处理:http://ip:8088/proxy/yarn _application_id/metrics/json

2019-10-15 14:45:38 775

原创 LDAP配置成功，账号不能登陆，密码不对问题；

用户过滤里边填写如下：用户过滤：(&(|(sAMAccountName={login})(userPrincipalName={login}))) ； sAMAccountName：代表用户名，userPrincipalName：域账号；

2019-06-05 18:39:45 9780

转载 Linux服务器最大线程数限制 OutOfMemoryError: unable to create new native thread

研发环境上的Linux项目启动报错：Caused by: java.lang.OutOfMemoryError: unable to create new native thread开始以为是内存不足导致无法创建线程，把jvm的-Xms，-Xmx的2个参数都加大一倍：-Xms2048m -Xmx2048m。把-Xss参数调小，还是启动失败。应该是系统方面的限制了，这台机器上搞了100个过tom...

2019-03-06 20:06:42 862

转载程序中Hadoop和Spark设置用户访问hdfs

1.对于hadoop而言如果hadoop没有启Kerberos或者从Kerberos获取的用户为null，那么获取HADOOP_USER_NAME环境变量，并将它的值作为Hadoop执行用户。如果我们没有设置HADOOP_USER_NAME环境变量，那么程序将调用whoami来获取当前用户，并用groups来获取用户所在组。所以可以设置环境变量：export HADOOP_USER_NA...

2019-02-26 17:52:11 3123

转载 SBT命令打包报错解决办法

打包 package 清除 clean堆栈溢出出现错误：java.lang.StackOverflowError对于这个溢出，需要更改stack的大小，找到sbt的配置文件conf下的：sbtconfig.txt，添加内容：-Xss2m内存溢出出现错误：java.lang.OutOfMemoryError常见的内存溢出现象，添加配置信息：-Xms6...

2018-11-02 12:47:05 3176

原创用sqoop 实现 msyql与hive的互转

1、 hive分区导数据到mysql#!/bin/bashMYSQL_BIN=/usr/local/mysql/bin#EOF #入口参数,获取脚本运行时间参数，默认参数为今天，与当前调度中的参数一致 echo $# if [ $# = 0 ]; then p_partition_d=`date -d "-1 days" +%Y%m%d` ...

2018-09-27 16:47:59 1286

转载 Spark性能调优

Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存（netty是零拷贝），所以使用了堆外内存。 • shuffle过程中常出现的问题常见问题一：reduce oom? 问题原因： reduce task 去map端获取数据，reduce一边拉取数据一...

2018-09-27 16:07:01 260

原创 python 发邮件本地发送没问题阿里云Linix上发送不出去问题

加上smtplib.SMTP_SSL(mail_host, 465) #阿里云把25端口封掉了附完整代码import pandas as pdimport smtplibfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartimport timedef get...

2018-09-18 11:13:37 1377 5

转载 hive 表不能删数据删表（exclusive， SHARED 锁）

Hive 解锁操作之前使用Hive，出现过一种情况：在代码正在执行insert into或insert overwrite时，中途手动将程序停掉，会出现卡死情况，只能执行查询操作，而drop insert操作均不可操作，无论执行多久，都会保持卡死状态，问同事有人遇到过，但是他的解决办法是……把表名换一个…… 后来废了九牛二虎之力，终于找到了一篇靠谱的博客，是说hive表被锁，需要解锁后，方可操作...

2018-06-23 11:03:47 4501

原创 sql 查表重复数据，删除重复数据保留一条记录

1、sql 查表重复数据 Select * From 表XX Where user_id In (Select user_id From 表XX Group By user_id Having Count(*)>1) 2、sql 查表重复数据 Select user_id From 表XX Group By user_id Having Count(*)>1删除重复数据保留一条记...

2018-05-31 13:46:42 2133

原创日期 sparksql hive sql mysql语句between and &amp；amp；amp；gt；= &amp；amp；amp；lt；= 的边界问题

踩过的坑

2018-05-09 18:28:14 2372

原创 sbt 项目在IDEA中打开类找不到飘红色问题

开发过程中，经常出现之前可以正常的sbt项目，过段时间再打开类全部飘红，找不到，但是各种依赖都在，可以尝试这样操作。1、打开右边栏位的sbt2、点击刷新...

2018-04-20 11:25:28 1669

原创 linux 常用操作命令

lsof -i:端口号 # 查端口进程lscpu # 查服务器信息 du -s * | sort -nr | head #查看服务器文件大小前10uname -a # 查看内核/操作系统/CPU信息的linux系统信息命令head -n 1 /etc/issue # 查看操作系统版本，是数字1不是字母Lcat /proc/cpuinfo # 查看CPU信...

2018-04-19 15:10:54 236

max_hello的博客