- 博客(25)
- 资源 (2)
- 收藏
- 关注
原创 hive udf函数实现在sql查询网站价格
日常公司大量同事使用sq查询统计数据,基于这个背景,上级要求可以在sql中通过传入必要参数,去查询公司网站上的符合一定条件的最低价,比如传入用户uid、入住日期、离店日期、酒店ID,能够返回符合条件的最低价。1、通过调用公司网站接口,爬取相关条件数据,难点爬取相关数据后转为datafram,然后通过datafram过滤符合条件房型价格,最终返回最低价(解析网站数据结构相对较复杂)2、用python编写udf,udf中读取sql传入参数,并调用1的方案,最终将返回值返回。
2025-08-29 09:09:52
316
原创 almaLinux安装中文输入法
2、配置环境变量,在.bashrc文件最前面设置一下变量。4、选择中文输入法(若该选项没有可以重启后再选择)1、安装ibus-libpinyin输入法。#almaLinux中文输入法##almaLinux选择#3、设置中文(智能拼音)
2024-09-04 13:21:58
1371
原创 Hive解析Json数组
SELECT explode(split(regexp_replace(regexp_replace('[{"website":"baidu.com","name":"百度"},{"website":"google.com","name":"谷歌"}]', '\\[|\\]',''),'\\}\\,\\{','\\}\\;[{"website":"baidu.com","name":"百度"},{"website":"google.com","name":"谷歌"}]用以下脚本可以将这列数据解析成两行。
2024-07-23 15:06:30
252
原创 Shell 知识点
(base) [bicorp@SVR18174HW2288 yexq]$ a=(120 "p111")(base) [bicorp@SVR18174HW2288 yexq]$ echo ${#a[*]}2(base) [bicorp@SVR18174HW2288 yexq]$ echo ${!a[*]}0 1(base) [bicorp@SVR18174HW2288 yexq]$ echo ${b[*]}100 param2for e in ${b[*]};do echo $e;don
2023-10-12 11:34:03
110
原创 【linux根据free和cache大小清缓存】
#!/bin/bash#*********************************************# vicggle@gmail.com# 2020-05-07#*********************************************set -enum=100000num1=50000ch1=`free -m | awk '{if(length !=0) print $4}'|grep -Po "\d+"|head -1` #free sizech..
2022-05-16 15:52:59
413
原创 linux下用nutt发送邮件
#!/bin/sh#功能描述:通过邮件将数据按不同人员发不同地区数据body='邮件内容部分'#reportPath="/home/hotel/xxx/data/thailandreport/"reportPath=`pwd -P`echo "reportPath:"$reportPath#download txt2xls function,local则无需downloadhdfs dfs -get hdfs://ns/home/hotel/xxx/script/xxx/txt2xl
2022-02-24 11:07:48
1472
原创 Hive常用技巧记录
Hive常用技巧一、函数部分时间函数-- 2021-12-17 12:35:31.123,含毫秒格式,screenshottime是map字段select from_unixtime(cast(screenshottime as bigint) / 1000,'yyyy-MM-dd HH:mm:ss.sss') as screenshottime from (select 1612851637476 as screenshottime) a;2. 拆分函数select ..
2022-01-27 11:00:34
465
原创 clickhouse消费kafka消息
知识点:1、kafka安装以及基本命令(本文安装过程略)2、clickhouse建kafka引擎表3、clickhouse建merge引擎表(其他引擎暂无测试)另外还可以安装kafkacat工具查看kafka,本例全在本机实现,跨服务器理论上调整kafka_broker_list即可,但还未测试。一、查看kafka消息体结构[root@SVRxxxxxxIN50002 sh]# kafka-console-consumer.sh --bootstrap-server 10.x.x.x
2021-03-02 17:03:25
1295
1
原创 clickhouse关于大小表关联的问题
关于大小表关联问题,一般情况小表放在join右边消耗内存会比较小(一般不比较多并行任务建议使用这种方式),放在join左边消耗内存会比较大,下图是大小表管理案例:1、小表在后(join右边)2、小表在前(join左边)...
2020-07-14 18:36:14
5437
2
原创 clickhouse故障处理(服务器异常重启)
背景: 今天凌晨,公司项目演练,曰"**地球",关键问题是没提前通知过,就这样我被凌晨的电话吵醒。问题:clickhouse服务被演练项目组直接断电重启,从日志看大概经过了1个半小时,我们大量clickhouse任务报错,大概50多个吧;处理经过如下:1、开机首先看service clickhouse-server status ,果然stopped,于是执行service clickhouse-server restart,结果啥信息也不提示,看状态依然是stopped;...
2020-06-29 19:01:44
10321
原创 clickhouse导入ORC格式HIVE表
1.查看hive表字段名(这里面有小坑,有时字段名在底层不是desc table出来的字段名,本案例d为分区字段,建hdfs表时不要该字段)2.创建HDFS table3.Insert Into HDFS table FORMAT ORC4.验证数据(略)...
2020-04-22 00:40:04
2790
Hadoop 0.20.2安装配置笔记(2012-2-28).doc
2012-02-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅