dogplays-优快云博客

原创 dbeaver无法连接Oracle报错：ORA-17800、ORA-12514

ORA-17800: 从读取调用中减去了一个 (CONNECTION_ID=QAd8w6vPQxifNvB3zd7s2g==)ORA-12514: 无法连接到数据库。两个客户端连接Oracle服务错误解决思路及方法

2025-04-01 16:14:58 371

原创 Doris Streamloader安装教程

Doris Streamloader 是一款用于将数据导入 Doris 数据库的专用客户端工具。本文介绍其在centos7环境下的安装过程

2025-03-31 15:18:12 327

原创 python 时间戳传到hive表中时间不正确

python读取接口数据，存到本地ORC文件中（新增一个时间戳，值是当前时间），然后上传到HDFS目录下，最后利用hive sql load data inpath到hiveorc表中。在这过程中“新增的时间戳”，在本地打印时值是正常的，但是到最后load data into hive表之后，时间少了8小时。转为STRING字段类型，并且对应的hive字段也转为STING。

2025-02-28 15:19:24 281

连接生产环境的VPN后用dbeaver连上hive后，经常查询无响应掉线，报错：org.apache.thrift.transport.TTransportException: java.net.SocketException: 你的主机中的软件中止了一个已建立的连接。如果电脑开启了类似火绒、360这样的安全软件，尝试关闭后执行查询即可（也可以研究此类软件的安全策略），猜测是此类安全软件做了某种限制，才会有：你的。中止了一个已建立的连接，这样的提示。

2025-02-24 10:23:53 252

原创 fink on yarn任务卡在100% No TaskExecutor registered under container原因是字符类型不匹配

这里打眼一看以为是资源或者是网路通信问题，我检查了网络和资源问题都排除了，最后看源表达梦数据表的表结构以及数据，发现有。这个clob用dbeaver看会很奇怪，在页面上最开始可能显示DmdbNClob，但是一刷新就会变为正常的数值显示。clob是用于存储大文本数据，而我使用的hive表字段与之对应的是varchar存储字符串类型，自然是错误的。flink on yarn某个将达梦数据库数据采集到hive表的任务一直处于running 100%，解决方法类型将clob字段采集时，截取或者转换为字符串即可。

2025-02-07 11:12:47 369

原创利用hive元数据统计数据量

对于数据量的统计，从表是否分区分为和两者有着不同的统计方式。

2024-11-18 16:34:27 679

原创 neo4j desktop基本入门

下载安装不在赘述，本文只记述一些neo4j的基本入门操作。

2024-11-13 17:32:32 921

原创 sqoop import将Oracle数据加载至hive，数据量变少，只能导入一个mapper的数据量

方法2（推荐）：手动根据已有字段构建splitby字段，例如常见的日期字段2021-07-21 17:40:00.000，利用TO_CHAR(日期时间字段, 'YYYYMMDD')转换一下，变为20210721这样格式，通常就可用作splitby字段。--query 参数的查询语句在Oracle中查询得到共计24563660数据，而加载到hive表dw.ods_pre_T_JSZX_TF_KJ2_LL中只有3070458数据。要明白其中的原因，必须要明白Oracle中的ROWNUM到底是什么？

2024-11-12 09:21:13 602

原创 sqoop Oracle 导入到hive 日期时间消失

那么换个解决思路，将hive表中的timestamp字段改为string类型，这样修改后成功解决。其中query语句在Oracle中执行时，日期时间都是完整保留的。但是执行完毕查看hive，却发现日期时间字段都是为NULL。

2024-11-08 17:14:03 479

原创 sqoop资源优化记录

问题1：Error: Java heap space Out of Memory。如果按照上述划分，如果5个mapper，平均一个mapper处理4.5百万数据。利用sqoop 导入千万级大概1K8W条Oracle数据到hive多分区表中。范围是1~288,每个分组6W多条数据。集群资源：132G，96cores。其实还有一个，尽量避免复杂查询。最后再次运行：耗时4分钟左右。

2024-11-08 16:46:10 635

原创 sqoop问题汇总记录

此篇博客仅记录在使用sqoop时遇到的各种问题。持续更新。

2024-10-31 17:36:29 1167

原创 sqoop Oracle to hive出现 Error Msg = ORA-00933: SQL 命令未正确结束

关键在于sqoop在计算split-by切片字段时：OriginalSql = SELECT MIN(YEAR), MAX(YEAR) FROM (SELECT。的语法，Oracle是不支持select * from (select * from A) as t1，这种子查询AS 命名表名的写法。那么sqoop脚本中如何避免呢？

2024-10-31 11:13:51 393 1

原创 cannot access class sun.nio.ch.DirectBuffer (in module java.base) because module java.base does not

cannot access class sun.nio.ch.DirectBuffer (in module java.base) because module java.base does not

2024-10-28 20:40:00 1173

原创 yarn任务一直处于accept状态Application is added to the scheduler and is not yet activatedUser‘s AM resource l

这个限制是基于队列中的 Application Master 能够使用的资源，而不是作业的任务资源。每个 AM 管理一个作业（或者多个作业），它需要一定的资源来协调和管理任务，而作业的具体任务会申请更多的资源。当前用户的 AM 资源上限是 6144 MB1cores，但该用户的 Application Master 请求了 11264 MB 1cores的内存。这意味着每个用户都有一定的资源上限，防止某个用户占用过多的资源。AM 是负责管理该应用的控制节点，每个应用都需要为 AM 预留一定的资源。

2024-10-23 14:58:14 1286

原创 hive on tez 指定队列后任务一直处于running状态

抢占是 YARN 在资源紧张时的机制，用于重新分配低优先级任务的资源给更高优先级的任务。configured capacity=5%，表示队列的初始容量百分比，即avation队列在最开始可以使用132G*5%=6.75G，75*5%=3.75cores。: 这是当前等待资源的最高优先级请求的优先级值。通常，当 YARN 没有立即分配到符合要求的资源时，容器会被延迟，直到合适的资源可用。configured max capacity=10%定义了队列使用集群资源的上限，即使其他队列资源空闲，

2024-10-18 17:46:28 1153

原创 Ambari Spark2 Thrift Server启动失败

总结：Spark2 Thrift Server服务依赖hive，需要确保hive组件正常运行。遇到启动失败，可查看告警或启动日志，解析日志分析原因。hive启动成功后，再次尝试启动Spark2 Thrift Server，成功。发现是hive相关服务访问被拒绝，

2024-10-15 23:19:51 325

原创 hive load data未正确读取到日期

load data CSV文件时，date日期字段未被成功读取

2024-02-19 11:34:43 708

原创 Hive ACID事务表

关于hive ACID事务表的一些内容记载

2024-01-10 10:39:09 1605

原创 Hive事务表转换为非事务表

如何将hive事务表转为非事务表

2024-01-10 10:36:13 1093

原创 hive命令启动出现classnotfound

./bin/hive命令启动出现classnotfound

2023-12-20 10:20:45 803

原创神通数据库字段空与非空

神通数据库字段空与非空之间转换

2023-12-15 15:57:44 434

原创 flink yarn-session 启动失败retrying connect to server 0.0.0.0/0.0.0.0:8032

flink yarn-session 启动失败retrying connect to server 0.0.0.0/0.0.0.0:8032

2023-12-13 17:58:01 1275

原创 ambari hive on Tez引擎一直卡住

使用TEZ作为Hive默认执行引擎时，需要在调用Hive CLI的时候启动YARN应用，预分配资源，这需要花一些时间，而使用MapReduce作为执行引擎时是在执行语句的时候才会去启用YARN应用。所以说，hive on tez使用./bin/hive后一直卡住是假象，待预分配资源任务结束后，即可输入hive sql正常执行。hive on tez使用./bin/hive启动后一直卡住，无法进入命令行。

2023-12-08 11:44:35 611

原创 ambari 开启hdfs回收站机制

默认值为0 代表禁用回收站，其他值为回收站保存文件时间，单位为分钟：回收站数据判断是否需要清理的检查周期，单位为分钟，默认为 0 时等于fs.trash.interval的值，要求值不大于fs.trash.intervalambari中hdfs上的配置的fs.trash.interval在“”一栏中而在已有的配置项中没有找到，只能通过add property添加通过以上参数配置即完成了hdfs 回收站的开启。现在通过HDFS Web试用一下，此时可能出现权限问题，可以参照此篇博客解决，配置。

2023-12-06 17:28:38 426

原创 python 连接神通数据库插入随机假数据

【代码】python 连接神通数据库插入随机假数据。

2023-12-06 10:32:21 278

原创神通数据库备份

以windows11为例，进入到神通数据库安装目录bin子目录下，ctrl+L，输入cmd，执行oscaragent.exe -v即可查看）当删除物理备份任务被执行时，用任务执行时间减去备份文件创建时间，如果结果大于保存期，并且物理备份未被创建为永久保存状态（创建物理备份时高级选项），该物理备份将会被删除。：选择“永久保存”后，此备份将不能被“删除物理备份类型操作任务”清除，只能手动删除。将三个物理备份删除任务集成到一个调度计划中执行，每月1日01:00执行。：可分别选择完全备份、差异备份、增量备份。

2023-12-05 15:36:34 912

原创 dbeaver连接amabri-hbase

dbeaver 集成ambari-hbase过程中遇到的问题

2023-11-29 16:22:50 846

原创利用ambari搭建Hbase高可用

利用ambari搭建Hbase高可用

2023-11-27 15:59:06 517

原创利用kibana 快照备份es数据库

备注：但是由于我是单节点只有ambari-hadoop3上有es所以，三节点都做nfs共享文件，只是为了其余两节点能够通过拷贝nfs共享目录下的文件至本地做本地备份。在ambari-hadoop2、ambari-hadoop3节点上创建/hom/es_data_backup目录。在ambari-hadoop1上创建要共享的目录/data/es_backup。在ambari-hadoop2和ambari-hadoop3上安装nfs客户端。，将共享目录添加到配置中。step3：配置nfs客户端，挂载共享目录。

2023-11-27 15:26:46 1371

原创 Elasticsearch启动失败问题汇总

由于es和jdk是一个强依赖的关系，所以当我们在新版本的ElasticSearch压缩包中包含有自带的jdk，但是当我们的Linux中已经安装了jdk之后，就会发现启动es的时候优先去找的是Linux中已经装好的jdk，此时如果jdk的版本不一致，就会造成jdk不能正常运行。默认情况下，Elasticsearch 不提供预配置的用户名和密码，因此你需要创建相应的用户。版本elasticsearch-8.11.1，解压安装完后，修改安装目录下conf/jvm.options，为了解决这个问题，你需要增加。

2023-11-23 14:57:34 2657

原创 kettle python脚本SyntaxError: invalid syntax

之前执行都OK，没有问题但是时隔久了之后再次执行，弹出一个选择框让我选择 .py文件的执行程序，我默认选择了弹出来的python.exe（），然后就出现了如图报错，手动执行了python脚本却无报错。注意：py文件所在路径避免出现中文。再次执行成功解决报错。

2023-11-21 16:34:57 573

原创 Kettle DB连接消失问题

Kettle 部分DB连接退出转换重新打开消失不见的问题

2023-11-21 10:07:08 562 1

原创神通数据库查询元数据信息

查询神通数据库某模式下基础元数据：表名、表注释、字段名、字段类型、字段长度。

2023-11-21 09:30:15 694

原创 python Lost connection to MySQL server during query

解决python插入大量数据时出现：python Lost connection to MySQL server during query问题

2023-11-20 16:38:54 1165 1

原创 Error while compiling statement: FAILED: SemanticException Line 1:17 Invalid path

解决利用sqoop 导入mysql数据到hive过程遇到的Error while compiling statement: FAILED: SemanticException Line 1:17 Invalid path问题

2023-11-17 17:24:07 962

原创 amabri安装教程

基于3台虚拟机服务器如何安装ambari，并通过ambari安装各大数据组件

2023-11-16 16:47:17 355

原创 ambari 服务组件报错解决

Oozie UI 启动过程中需要依赖Ext JS，而由于License的原因，HDP2.6以后的版本中Ext JS将不再被包含其中。尝试下载 Ext JS。SSL服务验证在之前已经关闭了，那么看看是否是用户权限问题，发现没有名为druid的用户和密码尝试创建完后再次尝试。虽然有文件了，但是大小不正确，没有下载完整所以安装失败。master启动失败，尝试再次重新启动，启动成功。oozie server启动失败，报错信息如下。看似启动成功，但是OOZIE web没法访问。先尝试重新启动一下，启动成功。

2023-11-16 16:45:19 2962

Hive随笔.docx

Flink 接收不到Kafka数据

安装Hue-4.7 make apps出现报错