- 博客(27)
- 资源 (4)
- 收藏
- 关注
原创 编译metabase
Linux Centos7 配置Metabase编译打包环境安装Oracle JDK1.8(如果已经安装,则可以省略此步骤,必须是Oracle JDK)在线下载Oracle JDK 1.8 将下载好的tar包放入linux目录下2、解压tar进行安装tar -zxvf jdk-8u212-linux-x64.tar.gz3、查看JDK是否安装成功java -version...
2023-01-11 16:38:36
788
1
转载 实时数仓之 Kappa 架构与 Lambda 架构
我们先了解一下数据仓库架构的演变过程,本文主要从五个方面进行介绍 数据仓库概念 离线大数据架构 Lambda 架构 Kappa 架构 Lambda 架构与 Kappa 架构的对比 1 数据仓库概念数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给..
2022-03-14 15:09:53
1928
原创 TortoiseGit-git工具
git小乌龟,git工具,贼好用下载地址Download – TortoiseGit – Windows Shell Interface to Git
2022-01-26 14:42:44
299
原创 批量复制文件,批量改文件名
工作中遇到jar包漏洞问题,需要批量更换,减少不少工作量和错误概率#!/bin/bashsuffix=".bak"source="/home/hdfs/opt/test.sh"for file in `find /home/hdfs/opt/ -type f -name 'pyflink.zip'`do newfile=`echo $file$suffix` echo $file mv $file $newfile targe
2021-09-03 15:33:03
202
原创 mysql表结构转clickhouse
public static String changeMysqlTableToClickHouse(String createTable) { String tables = createTable; String[] rows = tables.split("\n"); String replaceTables = ""; int i = 0; String partition = ""; Strin...
2021-06-03 11:53:30
450
转载 kafka手动修改消费者偏移量
文阐述如何使用Kafka自带的kafka-consumer-groups.sh脚本随意设置消费者组(consumer group)的位移。需要特别强调的是, 这是0.11.0.0版本提供的新功能且只适用于新版本consumer。0.11.0.0版本丰富了kafka-consumer-groups脚本的功能,用户可以直接使用该脚本很方便地为已有的consumer group重新设置位移,但前提必须是consumer group必须是inactive的,即不能是处于正在工作中的状态。 确定top.
2021-05-20 05:55:37
6253
原创 metabase编译
Linux Centos7 配置Metabase编译打包环境安装Oracle JDK1.8(如果已经安装,则可以省略此步骤,必须是Oracle JDK)在线下载Oracle JDK 1.8 将下载好的tar包放入linux目录下2、解压tar进行安装tar -zxvf jdk-8u212-linux-x64.tar.gz3、查看JDK是否安装成功java -version4、编辑 /etc/profilevim /etc/profile i 进入编辑模...
2021-02-03 15:21:20
434
原创 查看kafka消息消费情况
查看主题命令展示topic列表./kafka-topics.sh --list --zookeeper 172.18.153.12:2188描述topic./kafka-topics.sh --describe --zookeeper 172.18.153.12:2188 --topic test查看topic某分区偏移量最大(小)值./kafka-run-class.sh kafka.tools.GetOffsetShell --topic test --time -1 --bro
2021-01-28 15:43:49
4215
转载 Nginx=浏览器错误 Failed to load resource: net::ERR_INCOMPLETE_CHUNKED_ENCODING
使用Nginx代理的服务,一直使用正常,突然昨天就访问不了了;通过IP访问和端口能正常访问。原本以为是请求头文件过大导致资源未加载完问题;然后修改了Tomcat中配置中的请求头文件,修改后依然无效,浏览器中还是报如下错误:以上问题原因:当代理文件大小超过配置的proxy_temp_file_write_size值时,nginx会将文件写入到临时目录下(默认为/proxy_temp)。如果nginx中/proxy_temp过大或者没有权限,就写不进去。解决一:直接删除Nginx
2020-11-30 15:27:18
1288
原创 spark RDD[Row] 字段太多优化处理
val buffer: mutable.Buffer[Object] = Row.unapplySeq(row).get.map(_.asInstanceOf[Object]).toBuffer buffer.append(要加的字段) val schema: StructType = row.schema.add("aaa", StringType)....
2019-12-13 10:21:29
1385
原创 java 判断点是否在多边形内部
maven依赖<dependency> <groupId>com.vividsolutions</groupId> <artifactId>jts</artifactId> <version>1.13</version></dependency> public s...
2019-11-15 10:20:22
1262
转载 Yearning 介绍(SQL审核平台)
介绍Yearning SQL 审计平台 基于Vue.js与Django的整套mysql-sql审核平台解决方案。提供基于Inception的SQL检测及执行。GitHub:https://github.com/cookieY/Yearning文档:https://cookiey.github.io/Yearning-document/安装部署(centos6.8)1、Ng...
2019-10-24 13:59:42
2647
原创 Apache atlas集成CDH(hiveserver2和客户端)管理元数据
Apache atlas 的作用和概念不再陈述地址;官方文档:atlas安装文档;鄙人编译安装的是2.0的atlas;一、CDH上集成atlas;首先在CDH hive配置参数如图:hive环境变量配置hive-hook的相关jar包hive-hook相关jar:看图更贴切:报错query: java.lang.NoClassDefFoundError: Co...
2019-10-17 11:30:53
2555
10
原创 yarn rest接口监控mr spark 任务
yarn rest api :yarn rest apisparkstreaming消息延迟监控处理:http://ip:8088/proxy/yarn _application_id/metrics/json
2019-10-15 14:45:38
738
原创 LDAP配置成功,账号不能登陆,密码不对问题;
用户过滤里边填写如下:用户过滤:(&(|(sAMAccountName={login})(userPrincipalName={login}))) ; sAMAccountName:代表用户名,userPrincipalName:域账号;
2019-06-05 18:39:45
9576
转载 Linux服务器最大线程数限制 OutOfMemoryError: unable to create new native thread
研发环境上的Linux项目启动报错:Caused by: java.lang.OutOfMemoryError: unable to create new native thread开始以为是内存不足导致无法创建线程,把jvm的-Xms,-Xmx的2个参数都加大一倍:-Xms2048m -Xmx2048m。把-Xss参数调小,还是启动失败。应该是系统方面的限制了,这台机器上搞了100个过tom...
2019-03-06 20:06:42
829
转载 程序中Hadoop和Spark设置用户访问hdfs
1.对于hadoop而言如果hadoop没有启Kerberos或者从Kerberos获取的用户为null,那么获取HADOOP_USER_NAME环境变量,并将它的值作为Hadoop执行用户。如果我们没有设置HADOOP_USER_NAME环境变量,那么程序将调用whoami来获取当前用户,并用groups来获取用户所在组。所以可以设置环境变量:export HADOOP_USER_NA...
2019-02-26 17:52:11
3040
转载 SBT命令打包报错解决办法
打包 package 清除 clean堆栈溢出出现错误:java.lang.StackOverflowError对于这个溢出,需要更改stack的大小,找到sbt的配置文件conf下的:sbtconfig.txt,添加内容:-Xss2m内存溢出出现错误:java.lang.OutOfMemoryError常见的内存溢出现象,添加配置信息:-Xms6...
2018-11-02 12:47:05
3122
原创 用sqoop 实现 msyql与hive的互转
1、 hive分区 导数据到mysql#!/bin/bashMYSQL_BIN=/usr/local/mysql/bin#EOF #入口参数,获取脚本运行时间参数,默认参数为今天,与当前调度中的参数一致 echo $# if [ $# = 0 ]; then p_partition_d=`date -d "-1 days" +%Y%m%d` ...
2018-09-27 16:47:59
1256
转载 Spark性能调优
Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。 • shuffle过程中常出现的问题常见问题一:reduce oom? 问题原因: reduce task 去map端获取数据,reduce一边拉取数据一...
2018-09-27 16:07:01
216
原创 python 发邮件本地发送没问题 阿里云Linix上发送不出去问题
加上smtplib.SMTP_SSL(mail_host, 465) #阿里云把25端口封掉了附完整代码import pandas as pdimport smtplibfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartimport timedef get...
2018-09-18 11:13:37
1327
5
转载 hive 表不能删数据 删表(exclusive, SHARED 锁)
Hive 解锁操作 之前使用Hive,出现过一种情况:在代码正在执行insert into或insert overwrite时,中途手动将程序停掉,会出现卡死情况,只能执行查询操作,而drop insert操作均不可操作,无论执行多久,都会保持卡死状态,问同事有人遇到过,但是他的解决办法是……把表名换一个…… 后来废了九牛二虎之力,终于找到了一篇靠谱的博客,是说hive表被锁,需要解锁后,方可操作...
2018-06-23 11:03:47
4442
原创 sql 查表重复数据,删除重复数据保留一条记录
1、sql 查表重复数据 Select * From 表XX Where user_id In (Select user_id From 表XX Group By user_id Having Count(*)>1) 2、sql 查表重复数据 Select user_id From 表XX Group By user_id Having Count(*)>1删除重复数据保留一条记...
2018-05-31 13:46:42
2077
原创 日期 sparksql hive sql mysql语句between and &;amp;amp;gt;= &;amp;amp;lt;= 的边界问题
踩过的坑
2018-05-09 18:28:14
2284
原创 sbt 项目在IDEA中打开类找不到飘红色问题
开发过程中,经常出现之前可以正常的sbt项目,过段时间再打开类全部飘红,找不到,但是各种依赖都在,可以尝试这样操作。1、打开右边栏位的sbt2、点击刷新...
2018-04-20 11:25:28
1599
原创 linux 常用操作命令
lsof -i:端口号 # 查端口进程lscpu # 查服务器信息 du -s * | sort -nr | head #查看服务器文件大小前10uname -a # 查看内核/操作系统/CPU信息的linux系统信息命令head -n 1 /etc/issue # 查看操作系统版本,是数字1不是字母Lcat /proc/cpuinfo # 查看CPU信...
2018-04-19 15:10:54
211
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人