
大数据
文章平均质量分 63
hdfs,hive,hbase,spark,flink相关学习和使用记录
瞎胡侃
这个作者很懒,什么都没留下…
展开
-
Spark读取Apollo配置
在spark的提交命令中,增加如上两行,即可实现spark从apollo配置中心中读取自己的数据。原创 2025-04-25 11:30:31 · 227 阅读 · 0 评论 -
Spark使用mariadb驱动读取AWS Aurora所有结果数据行都是列名
如上所示,所有的数据行内容都和列名是一样的。原创 2023-08-01 22:37:54 · 260 阅读 · 0 评论 -
Flink 日常问题总结
目录1、Hadoop相关2、启动时出现missing parameter type错误3、处理Protobuf对象4、Flink-kafka Producer问题5、static关键字导致加载config为空问题6、序列化异常1、Hadoop相关javax.xml.parsers.FactoryConfigurationError: Provider for class javax.xml.parsers.DocumentBuilderFactory cannot be .原创 2021-02-10 15:56:02 · 557 阅读 · 0 评论 -
Spark任务的thrift冲突问题(logging-assembly)
因为项目是使用到了org.apache.thrift,在任务执行过程中,遇到了各种因thrift引起的jar包冲突问题,第一个想到的是shade<relocation> <pattern>org.apache.thrift</pattern> <shadedPattern>shade.org.apache.thrift</shadedPattern></relocation>最后一个stage解决了,但是由.原创 2020-10-21 21:10:45 · 461 阅读 · 0 评论 -
CDH添加新主机 - 主机上未检测到 Java JDK。
在cloudera manager管理界面上操作往CDH集群添加新主机时,跳过JDK安装的步骤,因为服务器一般都会安装有JDK全部步骤完成后,到主机配置也发现由如下提示:“主机上未检测到 Java JDK。”如果不解决这个问题,角色将会无法启动。在配置页面搜索java,配置对应路径,保存配置即可...原创 2020-09-29 18:40:21 · 2367 阅读 · 0 评论 -
【转载】epoll 的本质是什么?
从事服务端开发,少不了要接触网络编程。epoll 作为 Linux 下高性能网络服务器的必备技术至关重要,nginx、Redis、Skynet 和大部分游戏服务器都使用到这一多路复用技术。epoll 很重要,但是 epoll 与 select 的区别是什么呢?epoll 高效的原因是什么?网上虽然也有不少讲解 epoll 的文章,但要么是过于浅显,或者陷入源码解析,很少能有通俗易懂的。...转载 2019-08-27 11:48:31 · 227 阅读 · 0 评论 -
spark程序中查找所使用类的真正jar包
目录背景现象定位方法解决办法背景spark1.6.1 升级到 spark 2.1.0,codis版本是0.4.0现象代码没有改动,但是使用codis出现了问题,导致无法正常运行,错误如下redis.clients.jedis.exceptions.JedisException: Proxy list empty看源码pools为空的情况下会...原创 2019-03-20 14:58:56 · 970 阅读 · 0 评论 -
Spark-submit yarn-cluster exit code 脚本获取不一致问题
版本信息Spark:2.1使用方法代码:parseAsConfig(commandLine) match { case Some(config) => val ext = new Job().run() sys.exit(ext) case None => sys.exit(1) } }脚本:...原创 2019-03-19 18:13:13 · 1052 阅读 · 0 评论 -
Flink Kafka Connector 关于Partition动态发现
背景Kafka的topic进行扩容,出现丢数据的情况,只能通过重启的方式来解决。解决方法KafkaSource创建的时候,在Properties中,通过设置参数flink.partition-discovery.interval-millis 来打开自动发现功能。此参数的功能是间隔多久(interval)获取一次kakfa的元数据。默认是关闭的,只要设置interval大于0...原创 2019-12-27 18:03:12 · 4913 阅读 · 3 评论 -
Spark执行失败-SparkContext did not initialize after waiting for 100000 ms
执行其刚写完的项目进行测试时,遇到以下问题ERROR yarn.ApplicationMaster: SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application检查代码(Scala),发现其将SparkContext的创建写在了class中,并且其之前还有很多其他的业务逻辑代码object S.原创 2020-09-18 20:31:10 · 1265 阅读 · 0 评论 -
IDEA 下如何本地运行SPARK程序
1、主要是在VM options这里配置 -Dspark.master=local,即可直接在本地运行spark程序2、如果代码中需要传递参数,通过CommandLine和Options来解析,需要在Program arguments这里进行配置即可,比如--parameter xx --parameter2 xxx...原创 2020-08-18 14:33:36 · 2013 阅读 · 0 评论 -
Spark读取hdfs文件并写入hive表中
package com.jobimport org.apache.commons.cli.{BasicParser, CommandLine, Options}import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{StringType, StructType}case class Transfer2HiveConfig(query_day: String)object Transf.原创 2020-07-15 19:18:39 · 3184 阅读 · 0 评论 -
Hive2.0函数大全(中文版)
Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。转载 2017-11-29 15:08:38 · 630 阅读 · 0 评论 -
Mongo Hadoop Connector使用过程中,hive查询where不可以使用等号"="
背景在使用Mongodb Hadoop Connector的时,采用了Mongodb-based方式,也就是hive直接在mongo上进行查询,在测试的时候,遇到了一个问题,那就是在进行查询的时候,where后面不可以使用“=”。示例首先在Mongodb中插入两条测试数据在hive下创建表,使用如下语句create external table user_test(id原创 2017-11-29 11:19:17 · 1004 阅读 · 0 评论 -
Spring 配置 hive
之前试着搞了一下hbase,现在再来试一下hive的配置使用。配置pom.xml内容没有给全,主要贴出了hbase需要的,其他的根据个人需要而添加 4.1.6.RELEASE 2.4.0.RELEASE 2.6.0 1.0.0原创 2017-05-17 19:15:28 · 10862 阅读 · 2 评论 -
Spring 配置 hbase
最近项目要用Hadoop来做数据分析,所以让我先熟悉一下相关的知识,第一次接触,公司也没有人有这方面的经验,只好自己摸着石头过河,理论知识只能在之后的使用过程中慢慢积累和深入学习,现在只能先想办法把项目跑起来。环境的搭建是运维给搞好的,Hadoop是2.6.0版本,这里需要注意的是,相关端口需要运维提前给好相关权限,我用了半天时间找一个问题,最后发现是一个端口没有权限造成的,白白浪费了时间。原创 2017-05-15 15:06:56 · 3551 阅读 · 0 评论