- 博客(60)
- 资源 (13)
- 问答 (3)
- 收藏
- 关注

原创 CDH6.x安装教程(附带整合kerberos)
一、安装前准备设置HOST vi /etc/hosts 关闭防火墙 sudo systemctl disable firewalldsudo systemctl stop firewalld 设置SELinux vi /etc/selinux/config 将SELINUX=enforcing 改为SELINUX=permissive,然后重启服务器,或者执行下面命令: setenforce 0 开启NTP服务 # 安装NTP服务.....
2021-02-02 17:50:21
5171
10
原创 社区版Visual Studio通过安装开源插件Fine Code Coverage实现单元测试代码覆盖率统计
Fine Code Coverage 单元测试覆盖率
2023-10-20 16:11:12
2793
8
原创 EA画时序图时引用类图元素
1、时序图界面右键->插入其他元素。点击【操作】,选择元素中的方法。右键连接线->【特性】选择【派生指标上线】3、调用方法自动匹配。
2023-05-16 15:23:05
1991
原创 hive查询报错readDirect unsupported in RemoteBlockReader
readDirect unsupported in RemoteBlockReader
2022-10-17 14:15:58
523
原创 Could not find any format factory for identifier ‘parquet‘ in the classpath
Could not find any format factory for identifier 'parquet' in the classpath
2022-10-11 13:38:18
1221
原创 Flink任务OOM问题
当我们要读取大表时,例如hive表,很容易出现task内存不够用的情况,当这种情况出现时,任务可能会报出GC异常或者TaskManager心跳异常等,如下:1、java.lang.OutOfMemoryError: GC overhead limit exceeded2、java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id 【containerID】 timed out.这时我们可以观察TaskMana
2022-04-13 14:43:18
5427
原创 Java运行时打印某个类所属依赖包的绝对路径
import com.google.common.base.Preconditions;public class T1{ public static void main(String[] args){ Class targetclass = Preconditions.class; String className = targetclass.getName(); className = className.replace('.', '/');.
2022-04-01 16:23:47
1188
原创 kylin-4.0.1启动报错:NoSuchMethodError: org.apache.tomcat.JarScanner.scan
环境:HDP-3.1.5Apache Spark-2.4.7Kylin-4.0.1启动后logs/kylin.out日志如下Caused by: java.lang.NoSuchMethodError: org.apache.tomcat.JarScanner.scan(Lorg/apache/tomcat/JarScanType;Ljavax/servlet/ServletContext;Lorg/apache/tomcat/JarScannerCallback;)V
2022-03-29 17:27:31
1583
原创 There is no available StoreManager of type “rdbms“-HDP-3.1.5集成Spark-3.1.1报错
详细日志:22/03/29 09:02:47 ERROR Datastore: Exception thrown creating StoreManager. See the nested exceptionThere is no available StoreManager of type "rdbms". Make sure that you have put the relevant DataNucleus store plugin in your CLASSPATH and if defin
2022-03-29 17:05:32
2166
原创 Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration
HDP3使用apache版Spark2.4查询hive时报错:Caused by: java.lang.RuntimeException: org.apache.tez.dag.api.TezUncheckedException: Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration at org.apache.hadoop.hive.ql.session.SessionState.st
2022-03-24 16:22:09
2640
原创 Structured Streaming消费带kerberos认证的kafka问题解决
主要错误:SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Server not found in Kerberos database (7) - LOOKING_UP_SERVER)]kafka连接配置如下:val df = spark .readStream .format("kafka")
2022-03-01 10:31:56
3872
原创 Spark作业一直处于ACCEPTED状态
原因1:集群处于不健康状态打开yarn监控页面,查看nodes 状态如果Unhealthy Nodes列不为0,说明有的节点不健康,可以点进去查看详情,处理完并且集群处于健康状态后可尝试再次提交作业。
2022-02-25 13:36:27
3271
原创 Spark提交报错:1 node(s) are excluded in this operation
提交spark on yarn作业报错:主要错误信息“There are 1 datanode(s) running and 1 node(s) are excluded in this operation”,有一个datanode被排除1088 [main] INFO org.apache.spark.deploy.yarn.Client - Verifying our application has not requested more than the maximum memory ca
2022-02-25 10:59:39
2870
原创 IDEA本地执行Spark报错:is not a valid DFS filename
本地执行spark structured streaming 报错,程序代码:def main(args: Array[String]): Unit = { val spark = SparkSession .builder .master("local[2]") .appName("sparkStream2hudi") .getOrCreate() //消费kafka import spark.implicits._
2022-02-21 10:31:52
2535
2
原创 HDP-3.1.5.0-152环境与hudi-0.9.0兼容性问题
集群环境:HDP 3.1.5.0-152Spark 2.3.0(hudi官网要求2.4+)Hudi 0.9.0当前环境执行hudi官网测试代码报错“NoSuchFieldError: NULL_VALUE”,代码如下:def main(args: Array[String]): Unit = { val spark = SparkSession.builder .master("local[2]") .appName("hudi-test")
2022-02-18 14:58:02
1078
1
原创 hdp集成apache spark提交任务时报错:bad substitution
__spark_conf__/__hadoop_conf__: bad substitution
2022-02-18 14:48:32
1816
2
原创 FlinkSQL流式关联Hbase大表方案(走二级索引)
我们在做实时数据开发的时候,通常要用spark、flink去消费kafka的数据,拿到数据流后会和外部数据库(Hbase、MySQL等)进行维表关联来把数据流打宽。当然了,有些外部数据库不只是存储维度数据,也会有很多事实数据,并且这些数据更新频繁,数据量巨大,但是我们的Flink流也会去实时的join这些巨大的事实表,这就需要选择一个合适的外部数据库作为支持,这个外部数据库一定要满足海量数据高效的读写性能,这样才能满足实时场景的需求,说到这,我们的目光自然而然的落到了Hbase上,来吧,我们直接上图,下..
2022-02-10 16:40:05
3590
1
原创 java连接phonix报错:KeeperErrorCode = NoNode for /hbase/hbaseid
我的phonix jdbc url连接参数值如下jdbc:phoenix:prod-bigdata-pc10:2181/hbase-unsecure可见我在url中已经指定了zk连接端口和hbase节点等信息,由于我是hdp环境,该环境的hbase在zk上建立的根节点为/hbase-unsecure,所以需要指定实际值,但是实际建立phonix连接时仍旧会到zk上找默认的/hbase节点,并且也发现了在url上指定zk端口也是不生效的。解决:在工程中添加hbase-site.xml文件,并通过
2022-02-09 13:02:54
3335
原创 插入数据到hive hbase映射表报错RegionTooBusy
hive中使用insert select方式将某普通hive表数据写入一张hive hbase映射表,执行速度很慢,拿到其中一个container的日志发现有报错,错误如下:2022-01-18 17:18:37,730 [INFO] [htable-pool3-t1] |client.AsyncRequestFutureImpl|: id=2, table=test:LCCONT_INS, attempt=6/36, failureCount=251ops, last exception=org.a
2022-01-18 17:34:32
2356
转载 Hive on Tez : How to control the number of Mappers and Reducers
Hive on Tez : How to control the number of Mappers and ReducersGoal:How to control the number of Mappers and Reducers in Hive on Tez.Env:Hive 2.1Tez 0.8Solution:1. # of MappersWhich Tez parameters control this?tez.grouping.max-size..
2022-01-18 16:58:06
514
原创 kafka指定时间范围消费一批topic数据
public class JavaConsumerTool { /** * 创建消费者 * @return */ public static KafkaConsumer<String, String> getConsumer(){ Properties props = new Properties(); props.put("bootstrap.servers", "127.0.0.1:9092"); .
2022-01-18 16:23:03
3666
原创 NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Lja
Phonix和Hbase版本用的比较高,Phonix是5.0.0-HBase-2.0版,我用JAVA JDBC查询Phonix时报错:Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Ljavax/security/auth/Subject;)Z很显然时hadoop auth包版本的问题,于是将hadoop-aut
2022-01-14 13:01:51
1841
原创 Flink on Yarn 日志存储位置
有时我们的flink作业中打印太多日志(可能GB级别),在flink job web上加载就会很慢,这时我们想找到job输出的文件存放在哪个节点的目录下,并直接去查看日志文件,但是怎么找呢,来吧我们看下,我有个场景,flink作业中使用System.out.print输出了很多日志,导致在flink job web上加载就很慢,下载该日志时提示有15G,所以干脆不要下载了。我们查看下flink on yarn的作业启动输出信息,找下它的任务在哪几个节点跑,并且找到日志位置信息,我们打开它的yarn任务界面
2022-01-13 08:21:18
4804
原创 HDP环境的kafka如何开启JMX
打开HDP上的kafka配置界面,找到kafka-env template配置项,编辑添加export JMX_PORT=9393,该变量指定了JMX服务端口号,修改完成后重启kafka服务即可
2022-01-07 16:35:38
1402
原创 HDP-3.1环境kafka主题无法删除问题解决方案
问题描述:使用kafka-topics命令执行--delete操作删除topic无效,集群环境的kafka配置项delete.topic.enable=true,执行完删除操作后topic仍然存在,但是该topic分区的leader却会改变,并且zk的admin/delete_topics节点下并没有创建与该topic同名的子节点,通常执行删除操作后,kafka会在zk的admin/delete_topics节点下创建一个与删除topic同名的子节点以标记该topic已经删除。解决:在zk的admi
2022-01-07 14:55:10
1274
原创 Flink on Yarn报错:Container released on a *lost* node
flink任务提交到yarn执行几天后报错:2022-01-05 15:09:26,288 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Completed checkpoint 89574 for job cc0abb4a3cd870b2a9e1abc7235ceb91 (3528 bytes in 610 ms).2022-01-05 15:09:29,544 WARN akka.remote.R
2022-01-06 14:48:22
2699
原创 Flink作业使用yarn.provided.lib.dirs参数指定依赖
yarn.provided.lib.dirs参数如官网所描述,它能够在提交作业时从你指定的HDFS目录中获取依赖,从而不必在每次本地提交作业时都将依赖也一同提交,我们使用下试试,首先将工程依赖包上传至HDFS目录/user/dev/flink-1.14.0-dependency,在提交时加上yarn.provided.lib.dirs参数并指定依赖包所在HDFS目录:/opt/flink-1.14.0/bin/flink run-application \-t yarn-application \
2021-12-17 11:31:22
5925
原创 HDP-3.1.5集成DolphinScheduler-1.3.9
一、环境准备CentOS-7.8、nodejs-16、npm-(nodejs自带)、java-1.8、maven-3.8二、编译从GitHub获取dolphinscheduler-1.3.9源码git clone https://github.com/apache/dolphinscheduler.git -b 1.3.9-release进入源码目录进行编译mvn -U clean install -Prpmbuild -Dmaven.test.skip=true -X编译完
2021-11-19 10:11:08
3201
3
原创 Ranger环境下的Atlas启动异常AccessControlException: Permission denied
环境:HDP-3.1.5Ranger-1.2.0Atlas-1.1.0启动Atlas报错如下:Took 0.9533 secondsjava exceptionERROR Java::OrgApacheHadoopHbaseIpc::RemoteWithExtrasException: org.apache.hadoop.hbase.security.AccessDeniedException: org.apache.hadoop.security.AccessControlEx
2021-11-04 16:09:19
1325
原创 Ranger权限策略不生效或延迟
最近在使用Ranger配置管理Hbase权限时候,发现虽然创建了权限策略,但是不能生效,打开Ranger审计页面时,可以看到刚修改的策略虽然更新了,但是没有生效,如图:该页面可以看到有些策略状态存在警告,鼠标放在警告图标处可以看到提示“策略生效时间延迟超过1小时··” ,打开ranger服务日志可以看到错误:错误说“spnego.service.keytab”文件没有读的权限,并且发现该文件为root用户所属,于是将该文件赋予666权限,再次重启ranger服务后策略正常生效,打开Range
2021-11-04 15:45:28
2756
原创 CDH重新初始化Hive元数据库
初始化元数据需要使用cdh hive中的schematool 脚本工具进行初始化,初始化脚本位置为cloudera/parcels/CDH/lib/hive/bin/接下来执行初始化命令./schematool -initSchema -dbType mysql --verbose执行报错:[root@prod-bigdata-pc7 bin]# ./schematool -dbType mysql -initSchema -passWord root -userName root --
2021-10-21 09:53:30
2515
原创 CDH开启kerberos报错:Ticket expired
我是参考cloudera官方文档上的开启kerberos向导做的,地址:https://docs.cloudera.com/cdp-private-cloud-base/7.1.5/security-kerberos-authentication/topics/cm-security-kerberos-enabling-step4-kerberos-wizard.html开启过程中,最后的启动集群步骤开始报错,报错的服务有kafka、hbase、JobHistory等,相关日志如下:kafka、hb
2021-08-19 17:13:28
996
原创 Linkin-1.0.0提交spark任务到HDP环境报错:failed to request external resource provider
linkis-1.0.0部署到hdp集群,执行spark任务时候报错如下:找到日志linkis-cg-linkismanager.log可以看到一些错误日志,如图所示:于是开启linkis-cg-linkismanager服务的远程debug,跟踪到源码,当用linkis-cli提交spark任务时候,debug会执行到com.webank.wedatasphere.linkis.resourcemanager.external.yarn类里面的requestResourceInfo()方法,.
2021-08-19 11:22:35
600
CDH6.3.2安装包下载
2022-06-10
Flink实战项目(保险行业真实项目)
2022-06-10
Flink Phoenix connector依赖包
2022-06-02
ambari 2.7.5 安装包下载
2021-07-05
CDH7.1.5离线安装包下载
2021-03-22
Flink实战项目(电力行业真实项目)
2021-03-18
CDH6.3.3安装bao下载
2021-03-11
VNC-Viewer-6.20.529-Windows.exe
2020-06-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人