yipiantian-优快云博客

原创 hive udf函数实现在sql查询网站价格

日常公司大量同事使用sq查询统计数据，基于这个背景，上级要求可以在sql中通过传入必要参数，去查询公司网站上的符合一定条件的最低价，比如传入用户uid、入住日期、离店日期、酒店ID,能够返回符合条件的最低价。1、通过调用公司网站接口，爬取相关条件数据，难点爬取相关数据后转为datafram，然后通过datafram过滤符合条件房型价格，最终返回最低价（解析网站数据结构相对较复杂）2、用python编写udf，udf中读取sql传入参数，并调用1的方案，最终将返回值返回。

2025-08-29 09:09:52 316

原创 Hive日期相关函数

minus -- 挂单时长（接单时间到取消时间的差值）格式：xx天:xx小时:xx分钟:xx秒。

2025-06-18 15:41:46 265

原创根据给定城市下的经纬度计算xx公里内的目标

set cityname='慕尼黑';set ctryname='德国';

2025-01-15 10:46:15 214

原创 sql根据两个点的经纬度计算距离

sql根据两个点的经纬度计算距离

2025-01-14 15:31:19 454

原创 almaLinux安装中文输入法

2、配置环境变量,在.bashrc文件最前面设置一下变量。4、选择中文输入法（若该选项没有可以重启后再选择）1、安装ibus-libpinyin输入法。#almaLinux中文输入法##almaLinux选择#3、设置中文(智能拼音)

2024-09-04 13:21:58 1371

原创 Hive解析Json数组

SELECT explode(split(regexp_replace(regexp_replace('[{"website":"baidu.com","name":"百度"},{"website":"google.com","name":"谷歌"}]', '\\[|\\]',''),'\\}\\,\\{','\\}\\;[{"website":"baidu.com","name":"百度"},{"website":"google.com","name":"谷歌"}]用以下脚本可以将这列数据解析成两行。

2024-07-23 15:06:30 252

原创随机取n条数据

- order by rand() 随机效率较低，上述效率较高。

2024-04-09 12:49:41 182 1

原创 DBT实现类递归查询

【代码】DBT实现类递归查询。

2024-01-24 21:02:30 455 1

原创 Shell 知识点

(base) [bicorp@SVR18174HW2288 yexq]$ a=(120 "p111")(base) [bicorp@SVR18174HW2288 yexq]$ echo ${#a[*]}2(base) [bicorp@SVR18174HW2288 yexq]$ echo ${!a[*]}0 1(base) [bicorp@SVR18174HW2288 yexq]$ echo ${b[*]}100 param2for e in ${b[*]};do echo $e;don

2023-10-12 11:34:03 110

原创动态行转列SQL（非case when、非sum if）

hive sql

2023-03-21 17:24:54 304

原创 SQL快速生成少量样例数据

SQL 快速生成样例数据，用于快速各种测试。

2023-02-21 16:27:02 220

原创 hive sql构建Json和Json List及Json数组处理

【代码】hive sql构建Json和Json List Json数组。

2022-12-13 11:31:37 1697

原创 Hive计算两个经纬度坐标的直线距离

Hive计算两个经纬度坐标的直线距离

2022-09-05 14:50:00 2279 1

原创实现lead，lag窗口函数功能脚本

开窗函数功能实现过程

2022-07-29 16:05:12 469

原创 HIVE字段简单加密

HIVE字段简单加密

2022-06-23 19:45:51 2518

原创【linux根据free和cache大小清缓存】

#!/bin/bash#*********************************************# vicggle@gmail.com# 2020-05-07#*********************************************set -enum=100000num1=50000ch1=`free -m | awk '{if(length !=0) print $4}'|grep -Po "\d+"|head -1` #free sizech..

2022-05-16 15:52:59 413

原创【用VBA实现Word自动打印序列号】

vba宏编程

2022-04-18 11:39:08 3817 3

原创数据资产管理之数据校验

数据治理

2022-02-24 11:17:54 468

原创 linux下用nutt发送邮件

#!/bin/sh#功能描述：通过邮件将数据按不同人员发不同地区数据body='邮件内容部分'#reportPath="/home/hotel/xxx/data/thailandreport/"reportPath=`pwd -P`echo "reportPath:"$reportPath#download txt2xls function,local则无需downloadhdfs dfs -get hdfs://ns/home/hotel/xxx/script/xxx/txt2xl

2022-02-24 11:07:48 1472

原创 Hive常用技巧记录

Hive常用技巧一、函数部分时间函数-- 2021-12-17 12:35:31.123,含毫秒格式，screenshottime是map字段select from_unixtime(cast(screenshottime as bigint) / 1000,'yyyy-MM-dd HH:mm:ss.sss') as screenshottime from (select 1612851637476 as screenshottime) a;2. 拆分函数select ..

2022-01-27 11:00:34 465

原创 shell等待到指定时间执行任务

shell等待到指定时间执行任务

2021-12-27 19:47:03 4015

原创 clickhouse消费kafka消息

知识点：1、kafka安装以及基本命令（本文安装过程略）2、clickhouse建kafka引擎表3、clickhouse建merge引擎表（其他引擎暂无测试）另外还可以安装kafkacat工具查看kafka，本例全在本机实现，跨服务器理论上调整kafka_broker_list即可，但还未测试。一、查看kafka消息体结构[root@SVRxxxxxxIN50002 sh]# kafka-console-consumer.sh --bootstrap-server 10.x.x.x

2021-03-02 17:03:25 1295 1

原创 clickhouse关于大小表关联的问题

关于大小表关联问题，一般情况小表放在join右边消耗内存会比较小（一般不比较多并行任务建议使用这种方式），放在join左边消耗内存会比较大，下图是大小表管理案例：1、小表在后（join右边）2、小表在前（join左边）...

2020-07-14 18:36:14 5437 2

原创 clickhouse故障处理(服务器异常重启)

背景: 今天凌晨,公司项目演练,曰"**地球"，关键问题是没提前通知过，就这样我被凌晨的电话吵醒。问题：clickhouse服务被演练项目组直接断电重启，从日志看大概经过了1个半小时，我们大量clickhouse任务报错，大概50多个吧；处理经过如下：1、开机首先看service clickhouse-server status ,果然stopped,于是执行service clickhouse-server restart,结果啥信息也不提示，看状态依然是stopped；...

2020-06-29 19:01:44 10321

原创 clickhouse导入ORC格式HIVE表

1.查看hive表字段名（这里面有小坑，有时字段名在底层不是desc table出来的字段名，本案例d为分区字段，建hdfs表时不要该字段）2.创建HDFS table3.Insert Into HDFS table FORMAT ORC4.验证数据（略）...

2020-04-22 00:40:04 2790

Hadoop 0.20.2安装配置笔记(2012-2-28).doc

Hadoop 0.20.2安装配置笔记，在虚拟机上实现，宿主机(xp)：内存4G，安装三台虚拟linux系统，文档里有详细介绍，按此文档，基本没啥问题，这是我配置好了后写的。

2012-02-29

access program

access程序，在美国一直在用，access程序，在美国一直在用

2009-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人