- 博客(13)
- 收藏
- 关注
原创 Seatunnel和datax 的区别
Seatunnel 和 DataX 都是用于数据同步和数据迁移的开源工具,但它们在设计理念、架构、功能和使用场景上存在一些差异。
2024-12-11 15:43:23
1227
原创 python读取excel,转换为JSON/INSERT SQL语句
业务方提供一个几十列、十万w+的excel,需要每月多次写入数据库。每次都需要手动处理数据转换为json或者insert语句。所以想到通过py直接转换为json文件和insert语句。2. 定义表头(第一列)和英文字段(key)的对应关系。4.定义写入文件名称,定义初始SQL。3. 将nan类型转换为None;5.生成json/sql写入文件。
2024-08-19 18:54:19
264
原创 python中nan、字符串 ‘nan‘ 、浮点数 float(‘nan‘) 不同,使用常规替换方式无法转换为None
python中nan、字符串 ‘nan‘ 、浮点数 float(‘nan‘) 不同,使用常规替换方式无法转换为None
2024-08-19 17:29:33
459
原创 python通过结巴(jieba)实现中文分词->英文转换
通过结巴分词实现中文切分,识别切分后的中文在不在已有词典中,如果存在则转换为英文,如果不存在则保留中文,中间用"_"分隔开。
2024-04-16 17:44:28
392
原创 关于 UNIX_TIMESTAMP函数的趣事
关于 UNIX_TIMESTAMP函数的趣事:select UNIX_TIMESTAMP("2038-01-19 11:14:08") ,UNIX_TIMESTAMP("1970-01-01 00:00:00")
2023-11-23 12:04:13
194
原创 python使用Stream Load方式写入doris
本文使用简单案例,使用python作为开发语言,实现StreamLoad方式写入doris表中,能够满足基本的写入需要
2022-07-18 16:56:30
4965
原创 python3连接ES(elasticsearch)时https请求处理
python环境:python3.8.8ES(elasticsearch)版本 7.1.11.进行https请求时,忽略ssl证书验证,将context赋值给ssl_context 即可from elasticsearch import Elasticsearch#查看证书位置import ssl##忽视证书context = ssl._create_unverified_context()ES =["127.0.0.1:9200"]# 创建elasticsearch客户端es = E
2021-08-25 10:57:51
5666
2
原创 hive中小数点处理函数
hivesql 中对于小数点的处理ceil 向上取整SELECT ceil('10.25')11SELECT ceil('10.75')11floor 向下取整SELECT floor('10.75')10SELECT floor('10.25')10round 四舍五入SELECT round('10.25')10SELECT round('10.75')11regexp_extract正则取数0表示把整个正则表达式对应的...
2021-03-16 09:46:52
7957
2
原创 hive udf函数不生效问题
集群环境:CDH5.16.2问题描述:使用hive cli 在hive中创建的了永久的udf函数(当前连接生效,新建连接进入hive cli依然生效),但是当使用hue或者beeline连接,查询方法以及使用时无法找到。UDF函数简介:一进一出。一般由java语言编写,也可以使用python语言编写。hive中常用来做复杂数据清洗。UDF函数创建方式:临时创建:CREATE TEMPORARY FUNCTION function_name As永久创建add jar h.
2020-12-15 15:44:06
2609
原创 hive中内部表和外部表有什么区别?一般什么时候使用内部表什么时候使用外部表?
hive中内部表和外部表有什么区别?在使用hive搭建数据仓库的时候,可以建立两种表格。一种是内部表(managed table),一种是外部表(external table)。内部表建表是不加修饰词即可:create table database_name.table_name(column1 string,column2 string)外部表建表时需要加external:create table external database_name.table_name(col
2020-12-09 13:52:53
10548
5
原创 hive中模糊匹配“like”中的bug——count(like)+count(not like) !=总数据
今日输出报表时使用了like函数,数据统计异常。情况如下,当不加任何条件时,计算数据约为400万+;当加上单一限制条件not like '',数据总量变为200万+;当加上单一限制条件like '',数据总量变为137。SELECT count(1) from dwd_bigdata.tablename where fq_dt ='xxxx' --总数为4百万SELECT count(1) from dwd_bigdata.tablename where fq_dt ='xxxx
2020-12-04 16:49:21
1453
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人