自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yyf960126的博客

java转型大数据

  • 博客(106)
  • 收藏
  • 关注

转载 Hive函数大全(转)+自己工作上的例子

转自:https://blog.youkuaiyun.com/yanxilou/article/details/82661498 写的挺全的,mark!一、关系运算:1. 等值比较: =         语法:A=B         操作类型:所有基本类型         描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE         举例:         hive...

2019-02-12 17:02:10 680

原创 Linux上批量查找文件里面带的关键字(grep 关键字的用法)

grep功能说明:查找文件里符合条件的字符串(同时能匹配正则表达式)语法:grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]grep -参数 ...

2018-12-19 15:48:27 52329 4

原创 hive常用命令和外部写建表语句执行报错的解决方法

如果建表语句中有类型关键字,在建表是会报NoViableAltException错误,需要在关键字上加``(这个是ESC底下那个键)本人常用的hive命令: 1.不用启动hive就能运行建表语句hive -f xx.sql;注意:建表语句如果是外部编译器编写的话要更改编码格式为要不会爆这个错误 2.添加列alter table dev_odb.cac_a...

2018-09-03 16:00:32 2275

原创 Flink系列文章列表

把写的文章做一个汇总,会陆续更新的。

2025-05-27 23:20:30 303

原创 vertica优化

数据或中间结果按照关联等字段重新分布到每个节点,如果需要得到数据全集,则需要合并每个节点上的记录。找到之前年度汇报的ppt,把优化方法分享一下,也做一个留存。会在关联操作前将参加关联的另一个表表进行排序,然后再进行。按照关联字段预先排好序,那么优化器会选择更有效率的。数据量比较大的时候,要是创建临时表的话需要使用。如果只有一张表是按照关联字段预先排序,那么。数据量比较小的时候,创建临时表的话使用。来创建临时表,实体表的话需要重新设计。操作中额外的排序及数据传输操作,提升。的定义以及查询内容,选择最合适的。

2025-05-26 19:19:54 342

原创 Paimon和Hive相集成

Paimon版本1.17Hive版本3.1.3。

2025-05-22 17:53:58 1090

原创 数据仓库工具箱第三版——读书笔记(未完)

3.4.1、可计算获得的事实:例如收入字段,收入=原价格-优惠券优惠的价格。变化的度量应该被存储在事实表中。业务需要按照非标准的日期属性对日期进行分片,需要建立一个详尽的日期维度表,而不是由应用代码解决,原子事务事实表的粒度可在事务环境下被简洁地描述,例如,每个事务一行或 个事务线一行。设计计算的数据应该放入事实表中,涉及约束、分组和标记的数据应该放入维度表中。详细的粒度说明确定了事实表的束腰维度,可以将更多维度增加到事实表上,由于这些事实表记录的是一个事务事件,所以它们通常是比较稀疏的。

2025-05-22 16:17:44 662

原创 paimon和flink集成后批和流查看过去的快照的数据及变动的数据

paimon中批和流查看过去的快照的数据及变动的数据

2025-05-13 22:52:43 283 1

原创 hiveserver2与beeline进行远程连接hive配置及遇到的问题

hiveserver2与beeline进行远程连接hive配置及遇到的问题

2025-05-13 00:15:31 442

原创 hive在配置文件中添加了hive.metastore.uris之后进入hive输入命令报错

hive在配置文件中添加了hive.metastore.uris之后进入hive输入命令报错

2025-05-12 18:06:34 392

原创 mysql连接时候报错:error while loading shared libraries: libncurses.so.5: cannot open shared object file

mysql在linux命令进入时报错

2025-04-27 19:01:15 520

原创 shell脚本传递参数

【代码】shell脚本传递参数。

2024-07-11 21:51:04 169

原创 SQL中的LAG函数与LEAD函数用法

SQL中的LAG函数与LEAD函数用法

2024-05-11 20:01:44 1147 1

原创 hive中一行用分隔符切割成多行

hive中一行用分隔符切割成多行

2024-01-02 16:25:11 794

原创 Hologres常用语句

【代码】Hologres常用语句。

2023-11-13 11:50:31 581

原创 excal中遇到数据变成科学计数法的处理方法

excal中遇到数据变成科学计数法的处理方法,取消科学计数法

2023-08-03 11:09:36 681

原创 在shell脚本中调用另一个脚本的三种不同方法(exec, source,fork)的区别

上一个简单的例子,创建一个shell脚本test,sha="1"echo ${a}1、source的用法和.的用法相同在一个shell脚本中运行source xx.sh,xx.sh相当于执行完xx.sh再执行父脚本,同时xx.sh中的变量父脚本也能拿来使用。就像是java创建好对象,属性就能使用了很多脚本都有这种写法,下面是flink中jobmanager.sh的写法,需要的就是执行完config,sh中的变量2、exec的用法运行完test.sh自动退出,父脚本不再

2022-02-14 16:42:42 804

原创 java判断文件或文件夹是否存在

目录1、判断文件是否存在2、判断文件夹是否存在2.1、file.mkdirs()创建出的文件夹2.2、 file.getParentFile().mkdirs();1、判断文件是否存在import java.io.File;public class sss { public static void main(String[] args) throws Exception { File file = new File("E:\\新建文件夹\\2021111

2021-11-10 17:50:08 10201

原创 SqlServer常用命令与写法

1、备份表sqlserver不支持create table 表名 as select 的写法select * into 备份的表名 from 原表名;2、创建临时表2.1 系统临时表(断开连接会自动删除) create table #tableName(column1 dataType,...)2.2 创建系统临时表(使用drop table ##tableName 删除) create table ##tableName(column1 dataType,...)可以使用上

2021-10-19 16:17:11 3889

原创 Flink基本概念(一)

基于有状态计算(好处:不需要将原始数据重新从外部存储中拿出来)周期性的通过分布式快照技术checkpoints实现状态的持久化维护优势:1、同时支持高吞吐、低延迟、高性能2、支持事件时间(event time)概念:即使乱序时间到达flink也能根据事件产生的时间来处理3、支持有状态计算:把中间结果数据保存在内存或者文件系统中,不用再次从头计算4、支持高度灵活的窗口操作:通过窗口的方式对流数据进行一定范围的聚合计算。flink对窗口划分为基于time、count、sessio..

2021-07-30 18:10:36 430 1

原创 Oracle、mysql、hive、sqlserver中行转列函数

Oracle、mysql、hive、sqlserver中行转列函数

2021-05-30 00:25:20 973

原创 Oracle使用sqlplus后台执行遇到的问题SP2-0103

${sqls}=sql语句sqlplus -S oracle连接 <<END -- -S代表静默执行 set echo off feedback off heading off underline off; ${sqls}或者@sql文件名 quit;END运行sql文件的形式的时候报错SP2-0103因为sql中写了注释 eg:/*注释内容*/我把注释改成了--注释内容,并且每回运行之前处理一下每行开头的字符,使用sed命令,sed -i 's/^\s*/...

2021-05-29 23:17:34 1016

原创 sed命令中删除特定的行,在某行添加,与替换某行的数据

写在开头linux中vi编辑器中跳转到相应的行数是:set nu 之后再:行号。cat时显示行号cat -n test.txtnl 文件名|more(可以在more的时候显示文件的行号)样本数据test.txt123一、删除1.1、删除文件第二行数据sed -i '2d' test.txt1.2、删除文件第二、三行的数据sed -i '2,3d' test.txt1.3、删除文件第二行之后的数据sed -i '2,$d' test.txt

2021-05-17 20:14:33 3268

原创 shell脚本——文件里的内容与变量中内容大小写替换

一、把文件里的内容大小写转换sed 's/[a-z]/\u&/g' 文件名# 转大写sed 's/[A-Z]/\l&/g' 文件名# 转小写二、把变量中的内容大小写转换1、Bash4.0之后可以使用简单的方法,在linux中输入sh就能看见bash的版本${变量名^}:把变量中的第一个字符转换成大写${变量名^^}:把变量中的所有字符转换成大写sh-4.1# a='aaa'sh-4.1# echo ${a^}Aaash-4.1# echo ${a^^}..

2020-08-17 23:58:34 2049

原创 Linux对文件进行处理,sed,awk

1、Linux cut命令分隔文件的某列的值Cut -f1,2(列编号) -d ' '(列分割符) 文件名2、获取当前文件的日期ls -l文件路径|awk '{print $6" "$7" "$8}'linux 如何显示一个文件的某几行(中间几行)【一】从第3000行开始,显示1000行。即显示3000~3999行cat filename | tail -n +3000 ...

2020-04-29 11:30:04 393

原创 windows中host的位置

记下来防止自己忘C:\Windows\System32\drivers\etc集群好久没用了,把里面的#号去掉,IP地址和机器名 eg:192.168.128.150 node150作用就是不用直接输入ip直接输入我们给他起的机器名就可以...

2020-02-14 15:38:22 2369

原创 vertica基本常用sql

Vertica把csv格式的数据导入Verticavsql -h ip -U 用户名 -w ‘密码’-c "copy 表名from local 'xx.csv' delimiter E'分隔符(csv为逗号 ^A 为/001)' ";把vertica数据导出vsql -h ip -U 用户名-w ‘密码’ -o 导出文件名 -F '列分隔符' -R...

2020-02-11 11:09:08 3247

原创 CentOS的yum不好用手动下载rpm包安装vim插件(附上Error: Cannot find a valid baseurl for repo: base)解决方法

题外话:在我把集群的一台服务器通过手动安装vimRPM包之后,突然发现了我把网卡的网关拼写错了,GATEWAY写成GETEWAY,竟然好用了。。。这个集群一年了,一直没法ping通外网,说来也惭愧,大学时计算机网络缺课了一个月,很次,dns和网关都搞不懂,后续会补回来。。。做学问不是做一次就搞定了,而是不断复习精进的过程。进入正题:一、手动安装vim环境:CentOS6.1ping不通外网...

2019-08-26 16:28:08 1383

转载 协同过滤算法

转载自:https://www.cnblogs.com/luchen927/archive/2012/02/01/2325360.html在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filteri...

2019-07-25 10:08:21 368

翻译 机器学习——读书笔记(未完)

机器学习——周志华著机器学习致力于研究如何通过计算手段,利用经验来改善系统的计算性能计算机根据数据产生模型,在未来面对新的情况是,模型会给我们提供相应的判断模型泛指从数据中学到的结果,若我们欲预测的是离散值,例如好瓜坏瓜,此类学习任务称为分类若预测的是连续值,例如西瓜成熟度0.95、0.37,称为回归,对只涉及两个类别的二分类任务,其中一个类称为正类,一个为反类;涉及多个类别是...

2019-07-19 09:20:00 281

转载 inner join,left join ,right join ,full join

转载自https://www.cnblogs.com/rickons/p/9663039.htmlINNER JOIN 关键字在表中存在至少一个匹配时返回行。LEFT JOIN 关键字从左表(table1)返回所有的行,即使右表(table2)中没有匹配。如果右表中没有匹配,则结果为 NULL。RIGHT JOIN 关键字从右表(table2)返回所有的行,即使左表(table...

2019-07-18 08:56:19 161

转载 在Intellij IDEA中使用Debug

转载自:https://www.cnblogs.com/chiangchou/p/idea-debug.html目录一、Debug开篇 二、基本用法&快捷键 三、变量查看 四、计算表达式 五、智能步入 六、断点条件设置 七、多线程调试 八、回退断点 九、中断Debug 十、附:JRebel激活  Debug用来追踪代码的运行流程,通常在程序运行过程中出现异...

2019-07-12 17:27:38 150

原创 kettle中处理源数据库mysql的longblob类型问题

全部把字符类型的字段转换为进行强转一下

2019-07-12 17:24:22 1906

转载 Linux从nohup命令探索数据流重导向

转载自:https://www.cnblogs.com/gotodsp/p/6390023.html在应用Unix/Linux时,我们一般想让某个程序在后台运行,于是我们将常会用 & 在程序结尾来让程序自动运行。比如我们要运行mysql在后台: /usr/local/mysql/bin/mysqld_safe –user=mysql &。可是有很多程序并不想mysqld一样,这...

2019-07-12 17:23:24 169

原创 整理知识点——databus的使用

Databus是LinkedIn开源的一款低延迟的分布式数据库同步系统它提供可靠的数据捕获、流转和数据处理功能。 github地址是:https://github.com/linkedin/databus核心组件:  Databus的核心组件是Databus Relay。主要负责两个工作:  1、从Databus源数据库中读取变化行,并序列化为事件流保存至内存中。  2...

2019-07-12 17:21:53 2857

原创 shell脚本判断文件或文件夹是否存在,和if后面带的参数的解释,与判断多个文件与文件建是否存在

1.判断文件夹是否存在 -d 判断当前文件夹是否存在 else 不存在if [ -d "/root/shellTest1" ];thenecho "文件夹已经存在"elseecho "文件夹不存在"mkdir "/root/shellTest1"fi2.判断文件是否存在 -f 判断当前文件是否存在if [ -d "/root/a.txt" ];thenecho "文件...

2019-07-12 16:49:18 5058

转载 IntelliJ Idea 常用快捷键 列表(实战终极总结!!!!)

转载自:https://my.oschina.net/dyyweb/blog/494504IntelliJ Idea 常用快捷键 列表(实战终极总结!!!!) 多年前的博客,如今到处被转载,复制,还有微信专栏,请注明出处哦-大神们,1. -----------自动代码--------常用的有fori/sout/psvm+Tab即可生成循环、System.out、main方法等boile...

2019-07-12 16:39:27 227

原创 oobar, foo, bar, baz和qux搅屎棍的含义

术语foobar,foo,bar,baz和qux经常在计算机编程或计算机相关的文档中被用作占位符的名字。当变量,函数,或命令本身不太重要的时候,foobar,foo,bar,baz和qux就被用来充当这些实体的名字这些术语本身相对于使用的场景来说没有任何意义。foobar经常被单独使用;而当需要多个实体举例的时候,foo,bar,和baz则经常被按顺序使用。...

2019-06-28 15:27:53 2678 1

原创 从github上下载代码之后不能创建java文件的方法|ideasrc目录下无法创建java文件的问题

从github上下载的源码,遇到不能创建javaclass项目问题把不能创建java文件的文件夹source一下

2019-06-05 21:47:11 819

原创 Teradata建表时候复制表,和建表语句

拷贝表和数据Create table xx as 表名 WITH DATA;或Create table xx as 表名 WITH NO DATA;INSERT xx select * from 表名;只拷贝表结构Create table xx as 表名 WITH NO DATA;或CREATE TABLE xx AS( SELECT * FROM...

2019-05-20 14:20:30 5387

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除