- 博客(15)
- 收藏
- 关注
原创 关于hive同步数据到oracle字段超过长度的问题
而oracle的varchar2(255)默认情况下可以存储255个字节。今天从hive同步数据到oracle,hive这边字段类型是varchar 255,表里最长是247个字符。如果字段类型是varchar2(255 char)那就是可以占255个字符了。同步过程中总是报字段长度超过255,但是我hive出来的数据长度是256。hive这边length(binary(字段))最大字节数是257。oracle对应字段类型是varchar2(255)如果是utf-8 每个汉字占3个字节,
2025-03-24 15:55:56
142
原创 探讨使用hive数据倾斜优化参数导致数据为空
- 生成两阶段MR任务,先随机分发再聚合。-- 开启倾斜JOIN优化。-- 默认开启,确保在Map端预聚合。
2025-02-28 10:11:32
210
原创 hive任务内存溢出
这个参数的mapjoin当链接两个表,一个小表和一个特别大表,会把比较小的表写进内存,那可能会发生内存溢出。hive任务有时会溢出,如GC overhead limit exceeded。这个有可能是参数设置问题。
2024-10-23 09:44:18
157
原创 hive作业split metadata size exceeded10000000解决方案
mapreduce.jobtracker. split.metainfo. maxsize =100000000或者等于-1(默认值是1000000)这个问题是因为表里小文件或者文件目录过多导致分片元数据超出限额。如果是分区表可以通过限制分区数据;
2024-02-26 17:53:32
573
1
原创 Sqoop同步异常字符处理
在hive同步到oracle或者pg中,有时候会遇到异常字符导致同步失败,需要把异常字符都提前处理。regexp_replace(字段,’\\n|\\r|\\t|\\\u0001|\\\u0000’,’’)
2024-01-23 11:23:13
438
原创 oracle一行转多行,即某列拆开,其他列不变
REGEXP_ SUBSTR(需要拆分的列,'[^,]+',1,LEVEL) as new_column。LENGTH(REGEXP_ REPLACE(需要拆分的列,',','')+ 1。1.使用connect by拆分,列里以逗号作为拆反符。and LEVEL= LENGTH(需要拆分的列)-id,-- id 在表里是唯一的。
2023-06-15 09:17:05
1393
2
原创 利用python进行excel格式处理并关联
import pandas as pd# 1.第一个excel文件和处理过程,如果读其他sheet需加参数如,sheet_name='test'excel_data=pd.read_excel('/Users/PycharmProjects/test_file/test01.xlsx')# print(excel_data.columns)# print(excel_data)# 对备注列单元格内根据换行符分割df1=excel_data['备注'].str.split('\n',expa.
2022-05-07 11:22:49
922
原创 greenplumn无法进行DDL时
今天遇到一个问题,发现greenplumn有一个表无法进行DDL,经过排查,表现存在一个表级锁accessshare lock,通过管理员账号解锁后,仍无法进行DDL,最后经通过杀死相关系统进程,才将问题解决。方法如下:1.查询表级锁select a.locktype,a.database,a.pid,a.mode,a.relation,b.relnamefrom pg_locks...
2018-09-11 15:27:06
556
原创 tableau制作火柴图
1.首先准备excel数据源并导入tableau,数据如下:2.将人数拖到行标签,流程拖到列标签,分别对应条形图和圈3.把人数度量标记里“全部”颜色以及上下两个图的大小4.点击行标签的第二个总和(人数),选择双轴。火柴图效果就出来了。...
2018-09-11 15:14:28
2154
原创 Hadoop生态圈组件介绍
Hive:是一个数据仓库,提供大量结构化数据检索;Hbase:列式分布式数据库;Spark:基于内存的分布式计算框架Sqoop:是传统数据库和hadoop之间数据导入导出的工具Avro:是hadoop集群部署管理框架...
2018-03-17 18:51:12
1994
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人