自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 dbeaver无法连接Oracle报错:ORA-17800、ORA-12514

ORA-17800: 从读取调用中减去了一个 (CONNECTION_ID=QAd8w6vPQxifNvB3zd7s2g==)ORA-12514: 无法连接到数据库。两个客户端连接Oracle服务错误解决思路及方法

2025-04-01 16:14:58 371

原创 Doris Streamloader安装教程

Doris Streamloader 是一款用于将数据导入 Doris 数据库的专用客户端工具。本文介绍其在centos7环境下的安装过程

2025-03-31 15:18:12 327

原创 python 时间戳传到hive表中时间不正确

python读取接口数据,存到本地ORC文件中(新增一个时间戳,值是当前时间),然后上传到HDFS目录下,最后利用hive sql load data inpath到hiveorc表中。在这过程中“新增的时间戳”,在本地打印时值是正常的,但是到最后load data into hive表之后,时间少了8小时。转为STRING字段类型,并且对应的hive字段也转为STING。

2025-02-28 15:19:24 281

原创 DBEAVER 连接hive老是掉线

连接生产环境的VPN后用dbeaver连上hive后,经常查询无响应掉线,报错:org.apache.thrift.transport.TTransportException: java.net.SocketException: 你的主机中的软件中止了一个已建立的连接。如果电脑开启了类似火绒、360这样的安全软件,尝试关闭后执行查询即可(也可以研究此类软件的安全策略),猜测是此类安全软件做了某种限制,才会有:你的。中止了一个已建立的连接,这样的提示。

2025-02-24 10:23:53 252

原创 fink on yarn任务卡在100% No TaskExecutor registered under container原因是字符类型不匹配

这里打眼一看以为是资源或者是网路通信问题,我检查了网络和资源问题都排除了,最后看源表达梦数据表的表结构以及数据,发现有。这个clob用dbeaver看会很奇怪,在页面上最开始可能显示DmdbNClob,但是一刷新就会变为正常的数值显示。clob是用于存储大文本数据,而我使用的hive表字段与之对应的是varchar存储字符串类型,自然是错误的。flink on yarn某个将达梦数据库数据采集到hive表的任务一直处于running 100%,解决方法类型将clob字段采集时,截取或者转换为字符串即可。

2025-02-07 11:12:47 369

原创 利用hive元数据统计数据量

对于数据量的统计,从表是否分区分为和两者有着不同的统计方式。

2024-11-18 16:34:27 679

原创 neo4j desktop基本入门

下载安装不在赘述,本文只记述一些neo4j的基本入门操作。

2024-11-13 17:32:32 921

原创 sqoop import将Oracle数据加载至hive,数据量变少,只能导入一个mapper的数据量

方法2(推荐):手动根据已有字段构建splitby字段,例如常见的日期字段2021-07-21 17:40:00.000,利用TO_CHAR(日期时间字段, 'YYYYMMDD')转换一下,变为20210721这样格式,通常就可用作splitby字段。--query 参数的查询语句在Oracle中查询得到共计24563660数据,而加载到hive表dw.ods_pre_T_JSZX_TF_KJ2_LL中只有3070458数据。要明白其中的原因,必须要明白Oracle中的ROWNUM到底是什么?

2024-11-12 09:21:13 602

原创 sqoop Oracle 导入到hive 日期时间消失

那么换个解决思路,将hive表中的timestamp字段改为string类型,这样修改后成功解决。其中query语句在Oracle中执行时,日期时间都是完整保留的。但是执行完毕查看hive,却发现日期时间字段都是为NULL。

2024-11-08 17:14:03 479

原创 sqoop资源优化记录

问题1:Error: Java heap space Out of Memory。如果按照上述划分,如果5个mapper,平均一个mapper处理4.5百万数据。利用sqoop 导入千万级大概1K8W条Oracle数据到hive多分区表中。范围是1~288,每个分组6W多条数据。集群资源:132G,96cores。其实还有一个,尽量避免复杂查询。最后再次运行:耗时4分钟左右。

2024-11-08 16:46:10 635

原创 sqoop问题汇总记录

此篇博客仅记录在使用sqoop时遇到的各种问题。持续更新。

2024-10-31 17:36:29 1167

原创 sqoop Oracle to hive出现 Error Msg = ORA-00933: SQL 命令未正确结束

关键在于sqoop在计算split-by切片字段时:OriginalSql = SELECT MIN(YEAR), MAX(YEAR) FROM (SELECT。的语法,Oracle是不支持select * from (select * from A) as t1,这种子查询AS 命名表名的写法。那么sqoop脚本中如何避免呢?

2024-10-31 11:13:51 393 1

原创 cannot access class sun.nio.ch.DirectBuffer (in module java.base) because module java.base does not

cannot access class sun.nio.ch.DirectBuffer (in module java.base) because module java.base does not

2024-10-28 20:40:00 1173

原创 yarn任务一直处于accept状态Application is added to the scheduler and is not yet activatedUser‘s AM resource l

这个限制是基于队列中的 Application Master 能够使用的资源,而不是作业的任务资源。每个 AM 管理一个作业(或者多个作业),它需要一定的资源来协调和管理任务,而作业的具体任务会申请更多的资源。当前用户的 AM 资源上限是 6144 MB1cores,但该用户的 Application Master 请求了 11264 MB 1cores的内存。这意味着每个用户都有一定的资源上限,防止某个用户占用过多的资源。AM 是负责管理该应用的控制节点,每个应用都需要为 AM 预留一定的资源。

2024-10-23 14:58:14 1286

原创 hive on tez 指定队列后任务一直处于running状态

抢占是 YARN 在资源紧张时的机制,用于重新分配低优先级任务的资源给更高优先级的任务。configured capacity=5%,表示队列的初始容量百分比,即avation队列在最开始可以使用132G*5%=6.75G,75*5%=3.75cores。: 这是当前等待资源的最高优先级请求的优先级值。通常,当 YARN 没有立即分配到符合要求的资源时,容器会被延迟,直到合适的资源可用。configured max capacity=10%定义了队列使用集群资源的上限,即使其他队列资源空闲,

2024-10-18 17:46:28 1153

原创 Ambari Spark2 Thrift Server启动失败

总结:Spark2 Thrift Server服务依赖hive,需要确保hive组件正常运行。遇到启动失败,可查看告警或启动日志,解析日志分析原因。hive启动成功后 ,再次尝试启动Spark2 Thrift Server,成功。发现是hive相关服务访问被拒绝,

2024-10-15 23:19:51 325

原创 hive load data未正确读取到日期

load data CSV文件时,date日期字段未被成功读取

2024-02-19 11:34:43 708

原创 Hive ACID事务表

关于hive ACID事务表的一些内容记载

2024-01-10 10:39:09 1605

原创 Hive事务表转换为非事务表

如何将hive事务表转为非事务表

2024-01-10 10:36:13 1093

原创 hive命令启动出现classnotfound

./bin/hive命令启动出现classnotfound

2023-12-20 10:20:45 803

原创 神通数据库字段空与非空

神通数据库字段空与非空之间转换

2023-12-15 15:57:44 434

原创 flink yarn-session 启动失败retrying connect to server 0.0.0.0/0.0.0.0:8032

flink yarn-session 启动失败retrying connect to server 0.0.0.0/0.0.0.0:8032

2023-12-13 17:58:01 1275

原创 ambari hive on Tez引擎一直卡住

使用TEZ作为Hive默认执行引擎时,需要在调用Hive CLI的时候启动YARN应用,预分配资源,这需要花一些时间,而使用MapReduce作为执行引擎时是在执行语句的时候才会去启用YARN应用。所以说,hive on tez使用./bin/hive后一直卡住是假象,待预分配资源任务结束后,即可输入hive sql正常执行。hive on tez使用./bin/hive启动后一直卡住,无法进入命令行。

2023-12-08 11:44:35 611

原创 ambari 开启hdfs回收站机制

默认值为0 代表禁用回收站,其他值为回收站保存文件时间,单位为分钟:回收站数据判断是否需要清理的检查周期,单位为分钟,默认为 0 时等于fs.trash.interval的值,要求值不大于fs.trash.intervalambari中hdfs上的配置的fs.trash.interval在“”一栏中而在已有的配置项中没有找到,只能通过add property添加通过以上参数配置即完成了hdfs 回收站的开启。现在通过HDFS Web试用一下,此时可能出现权限问题,可以参照此篇博客解决,配置。

2023-12-06 17:28:38 426

原创 python 连接神通数据库插入随机假数据

【代码】python 连接神通数据库插入随机假数据。

2023-12-06 10:32:21 278

原创 神通数据库备份

以windows11为例,进入到神通数据库安装目录bin子目录下,ctrl+L,输入cmd,执行oscaragent.exe -v即可查看)当删除物理备份任务被执行时,用任务执行时间减去备份文件创建时间,如果结果大于保存期,并且物理备份未被创建为永久保存状 态(创建物理备份时高级选项),该物理备份将会被删除。:选择“永久保存”后,此备份将不能被“删除物理备份类型操作任务”清除,只能手动 删除。将三个物理备份删除任务集成到一个调度计划中执行,每月1日01:00执行。:可分别选择完全备份、差异备份、增量备份。

2023-12-05 15:36:34 912

原创 dbeaver连接amabri-hbase

dbeaver 集成ambari-hbase过程中遇到的问题

2023-11-29 16:22:50 846

原创 利用ambari搭建Hbase高可用

利用ambari搭建Hbase高可用

2023-11-27 15:59:06 517

原创 利用kibana 快照备份es数据库

备注:但是由于我是单节点只有ambari-hadoop3上有es所以,三节点都做nfs共享文件,只是为了其余两节点能够通过拷贝nfs共享目录下的文件至本地做本地备份。在ambari-hadoop2、ambari-hadoop3节点上创建/hom/es_data_backup目录。在ambari-hadoop1上创建要共享的目录/data/es_backup。在ambari-hadoop2和ambari-hadoop3上安装nfs客户端。,将共享目录添加到配置中。step3:配置nfs客户端,挂载共享目录。

2023-11-27 15:26:46 1371

原创 Elasticsearch启动失败问题汇总

由于es和jdk是一个强依赖的关系,所以当我们在新版本的ElasticSearch压缩包中包含有自带的jdk,但是当我们的Linux中已经安装了jdk之后,就会发现启动es的时候优先去找的是Linux中已经装好的jdk,此时如果jdk的版本不一致,就会造成jdk不能正常运行。默认情况下,Elasticsearch 不提供预配置的用户名和密码,因此你需要创建相应的用户。版本elasticsearch-8.11.1,解压安装完后,修改安装目录下conf/jvm.options,为了解决这个问题,你需要增加。

2023-11-23 14:57:34 2657

原创 kettle python脚本SyntaxError: invalid syntax

之前执行都OK,没有问题但是时隔久了之后再次执行,弹出一个选择框让我选择 .py文件的执行程序,我默认选择了弹出来的python.exe(),然后就出现了如图报错,手动执行了python脚本却无报错。注意:py文件所在路径避免出现中文。再次执行成功解决报错。

2023-11-21 16:34:57 573

原创 Kettle DB连接消失问题

Kettle 部分DB连接退出转换重新打开消失不见的问题

2023-11-21 10:07:08 562 1

原创 神通数据库查询元数据信息

查询神通数据库某模式下基础元数据:表名、表注释、字段名、字段类型、字段长度。

2023-11-21 09:30:15 694

原创 python Lost connection to MySQL server during query

解决python插入大量数据时出现:python Lost connection to MySQL server during query问题

2023-11-20 16:38:54 1165 1

原创 Error while compiling statement: FAILED: SemanticException Line 1:17 Invalid path

解决利用sqoop 导入mysql数据到hive过程遇到的Error while compiling statement: FAILED: SemanticException Line 1:17 Invalid path问题

2023-11-17 17:24:07 962

原创 amabri安装教程

基于3台虚拟机服务器如何安装ambari,并通过ambari安装各大数据组件

2023-11-16 16:47:17 355

原创 ambari 服务组件报错解决

Oozie UI 启动过程中需要依赖Ext JS,而由于License的原因,HDP2.6以后的版本中Ext JS将不再被包含其中。尝试下载 Ext JS。SSL服务验证在之前已经关闭了,那么看看是否是用户权限问题,发现没有名为druid的用户和密码尝试创建完后再次尝试。虽然有文件了,但是大小不正确,没有下载完整所以安装失败。master启动失败,尝试再次重新启动,启动成功。oozie server启动失败,报错信息如下。看似启动成功,但是OOZIE web没法访问。先尝试重新启动一下,启动成功。

2023-11-16 16:45:19 2962

原创 kibana和es版本对应关系

支持一览表 | Elastic

2023-09-25 17:39:36 298

原创 flink广播流

step3:将普通主数据流和广播流进行connect,调用process方法,在process方法中通过自定义BroadcastProcessFunction继承的processElement方法和processBroadcastElement方法,分别对普通主数据流中事件和广播流中事件进行处理。个人认为当一个数据流需要另一个不停变化实时数据参与计算处理时,可以将不停变化的实时数据作为广播流,将两者connect从而满足,在不停止原有数据流处理任务的情况能实时满足变化的计算需求。

2023-09-19 11:09:05 500

原创 Flink 会话模式Yarn部署完成后无法提交作业

Flink 会话模式Yarn部署完成后无法提交作业

2022-12-09 15:29:05 1457

Hive随笔.docx

学习hive上收集各方资源,稍加见解,包含hive基础知识,上传以分享并备忘。

2021-11-14

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除