- 博客(18)
- 收藏
- 关注
原创 Caused by: org.apache.kafka.common.KafkaException: Failed to construct kafka consumer
遇到的问题kafka使用kerberos安全认证后,我这边的消费程序需要修改。原本如果是普通的消费程序,加两行代码就行了: System.setProperty("java.security.auth.login.config", kafkaJaasPath); System.setProperty("java.security.krb5.conf", krb5Path);但是我的程序是用spark streaming框架写的。原本在我的idea上跑local跑的好好的,结果一上到spark st
2021-11-03 10:37:31
8354
原创 获取oracle唯一索引
两张有关的表all_indexes: 系统视图存放是索引的名称以及该索引是否是唯一索引等信息。all_ind_columns: 系统视图存放的是索引名称,对应的表和列等。获取唯一索引select COLUMN_NAME from all_ind_columns a where TABLE_OWNER='用户名' and a.INDEX_NAME=(select b.INDEX_NAME from all_indexes b where OWNER='用户名' and TABLE_NAME
2021-09-07 14:50:54
774
原创 虚拟机的redhat挂起后ifconfig没有inet的问题
背景虚拟机上的redhat7.5,运行的好好的,但是电脑太久不动后休眠了,重新开机时发现ssh登不上去了。用ifconfig查看发现,网卡的inet没有了???修复步骤我的网卡是ens33,修改以下文件,将ONBOOT由no修改为yesvim /etc/sysconfig/network-scripts/ifcfg-ens33...
2021-07-29 18:58:17
391
原创 spark日志清理
1.背景这里介绍的日志清理是standlone模式下的,其它的我没有研究过。提交到spark的程序,worker会启动有多个executor,在${SPARK_HOME}/work下,可以看到有很多app-*文件夹,这些文件夹放的是程序运行时的日志、jar包等。如果不清理的话,这些文件夹肯定是越来越多的,时间长了也会占用较多的磁盘空间。下2.清理方法2.1清理运行完成后的文件夹修改${SPARK_HOME}/conf/目录下的spark-env.sh。vim ${SPARK_HOME}/conf
2021-07-02 16:06:59
1327
原创 java.lang.IllegalArgumentException at org.apache.xbean.asm5.ClassReader.<init>(Unknown Source)...
最近想将eclipse上的项目迁移到idea。在eclipse上跑的好好的项目,但是在idea上报了下面的错:[INFO ] 2020-09-10 15:10:10,410 [JobGenerator] org.apache.spark.internal.Logging$class.logInfo(Logging.scala:54): Added jobs for time 1599721810000 ms [INFO ] 2020-09-10 15:10:10,420 [JobScheduler]
2020-09-10 15:44:53
749
原创 使用spark.streaming.kafka.consumer.poll.ms和reconnect.backoff.ms解决spark streaming消费kafka时任务不稳定的问题
问题描述在用spark streaming程序消费kafka的数据时,遇到了一个神奇的现象:同样的数据量、相似的数据,在消费时,有些批次的数据在做map操作时神奇的多了40多秒,具体看下面的数据:在map操作时,有些是几秒,有些稳稳的是41s!如果是偶然出现还好,但是,大部分的作业都是在map时花了刚好41s。这就很神奇了。1.map:2s 2.map:41s 3.map:0.8s 4.map:41s 5.map:41s 解决过程1.一开始,怀疑是executor的问题。因为我的ex
2020-07-06 09:10:27
4429
原创 SparkStreaming的backpressure的使用
之前在使用spark streaming消费kafka数据时,为了防止每次从kafka获取的数据过多,设置了spark.streaming.kafka.maxRatePerPartition的大小,这样每次从kafka获取到的最大数据就可以为“topic个数*kafka每个topic分区个数*maxRatePerPartition”。这样似乎可以防止spark一次性读入的数据太多。然鹅,带来了一些...
2020-03-13 15:23:28
684
原创 Kafka Controller connect to node could not be established
最近遇到了个神奇的问题:新部署了一个kafka集群,由3台机组成。然而,其中的某一台,出现了Controller连不上的情况!日志里打印出连不上另外一个节点,使用netstat -nap | grep 9092可以看到,连接状态一直是SYN_SENT。一开始以为是config中的server.properties文件的问题,然而啥都没发现。后来开始怀疑是防火墙的问题,于是赶紧看了下...
2020-03-04 13:16:59
586
原创 Could not initialize class org.xerial.snappy.Snappy解决方法
最近在用spark消费kafka数据时,在集群上跑着跑着程序就挂掉了。报的错误是Could not initialize class org.xerial.snappy.Snappy在网上查了下,报错的原因是snappy将.so文件解压到了/tmp目录下,如果/tmp目录因为种种原因撑爆了,那就gg了。This is generally caused by by snappy librar...
2020-01-15 09:36:50
5053
原创 kafka的使用
参考地址创建一个名为“test”的Topic,只有一个分区和备份(2181是zookeeper的默认端口)./kafka-topics.sh --create --zookeeper localhost:2181 --config max.message.bytes=12800000 --config flush.messages=1 --replication-factor 1 --part...
2020-01-09 09:35:12
254
原创 zookeeper集群安装
kafka自带了zookeeper,如果要单独安装一个zookeeper,可在这里下载:zookeeper下载地址安装环境信息zookeeper版本3.4.14机器ip10.133.32.41,10.133.32.42,10.133.32.43jdk版本1.8wget http://mirror.bit.edu.cn/apache/zookeeper/zo...
2019-12-25 13:53:15
128
原创 kafka集群安装
安装环境信息kafka版本2.3.0机器数3kafka里面自带了zookeeper,安装时修改默认的配置文件即可。1.下载地址kafka2.3.0下载地址我这里下载的是kafka_2.12-2.3.0。2.12是scala的版本号,2.3.0是kafka的版本号。2.安装在/home/atom目录下执行mkdir kafkatar -zxvf kafka...
2019-11-19 09:04:58
155
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人