大数据
文章平均质量分 60
wang972779876
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark读写文件修改换行符
spark修改换行符、hadoop inputformat原创 2022-04-24 10:15:37 · 2467 阅读 · 0 评论 -
数据倾斜问题处理-转载
看到一篇问题处理数据倾斜的,做下备份,基本都是比较常用的方法,启用倾斜连接优化的方法是之前没有使用过的,以后出现数据倾斜的问题尝试下效果。原文地址:实操 : Hive 数据倾斜问题定位排查及解决多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在 99%,转载 2021-10-29 11:40:16 · 311 阅读 · 0 评论 -
hive 读取sparksql的orc文件报ArrayIndexOutOfBoundsException:6
报错日志如下可以看出报错的地方再OrcFile的WriterVersion的from方法,定位代码发生在下面代码的values[val]代码段。values的值从代码可以看出values的数据应该为5,见下图代码而传过来的val是6,向上看代码,version来源是文件的meta,应该是spark版本的原因导致hive不支持的version。解决修改OrcFile文件的WriterVersion的内部类的from方法:public static WriterVersio原创 2021-10-28 17:13:07 · 1972 阅读 · 0 评论 -
debezium 采集oracle原理
logminerlogminer的用途日志文件中存放着所有进行数据库恢复的数据,记录了针对数据库结构的每一个变化,也就是对数据库操作的所有DML语句。logminer 工具即可以用来分析在线,也可以用来分析离线日志文件,即可以分析本身自己数据库的重作日志文件,也可以用来分析其他数据库的重作日志文件。总的说来,logminer工具的主要用途有: 1.跟踪数据库的变化:可以离线的跟踪数据库的变化,而不会影响在线系统的性能。 2. 回退数据库的变化:回退特定的变化数据,减少point-in-time re原创 2021-10-12 16:27:35 · 1988 阅读 · 0 评论 -
apache hadoop 升级
hadoop版本apache:2.7.7->2.9.2hadoop集群为非高可用集群1.创建镜像回滚:hdfs dfsadmin -rollingUpgrade prepare2.hdfs dfsadmin -rollingUpgrade query查看镜像回滚状态,直到显示Proceed with rolling upgrade状态3.下载并解压hadoop-2.9.24.将hdfs-site.xml、core-site.xml 、yarn-site.xml拷贝到hadoop-.原创 2021-10-12 09:40:56 · 403 阅读 · 0 评论 -
kafka connect +debezium实时采集postgresql
使用pgoutput的方式设置postgresql修改postgresql.conf添加或者修改以下字段wal_level = logical max_wal_senders = 1 max_replication_slots = 1 修改pg_hba.conflocal replication <youruser> trust host...原创 2021-09-06 16:28:23 · 956 阅读 · 0 评论 -
debezium+kafka connector 实时采集mysql
配置mysql创建用户并授权创建用户CREATE USER 'debezium'@'%' IDENTIFIED BY 'password';授予权限GRANT SELECT, RELOAD, SHOW DATABASES, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'debezium' IDENTIFIED BY 'password';FLUSH PRIVILEGES;启用二进制日志1.检查是否支持二进制日志SELEC原创 2021-08-30 18:31:11 · 1085 阅读 · 0 评论 -
spark 通过jdbc读取hive jdbc
1.通过spark提供的jdbc方式连接代码如下val spark = SparkSession.builder().master("local").getOrCreate() val rdd = spark.read.format("jdbc") .format("jdbc") .option("driver", "org.apache.hive.jdbc.HiveDriver") .option("url", "jdbc:hive2://hiveserv原创 2021-06-09 15:43:54 · 4596 阅读 · 0 评论 -
datax 自定义transformer
datax 自带的transformer :原创 2021-05-31 14:30:31 · 1666 阅读 · 1 评论 -
hdfs 客户端超时时间设置
问题:使用java连接hdfs当输入错误时,都需要等待很长时候或者停止程序,有没有什么办法设置我们的等待时间,客户端的超时连接有那些参数决定参考:https://blog.youkuaiyun.com/zhanglong_4444/article/details/99471338解决hdfs的超时连接有两个参数决定:ipc.client.connect.max.retries.on.timeouts 和ipc.client.connect.timeout两个参数决定第一个是尝试次数,第二个是超时的时间,也就是说原创 2021-05-18 17:40:56 · 3715 阅读 · 0 评论 -
多线程创建FileSystem,当close时导致其他的FileSystem关闭
问题1:当我们使用FileSystem.get(conf)时会创建几个实例针对这个问题我们进行代码测试import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import java.io.IOException;import java.util.List;public class ThreadTest extends Thread{ private FileSystem原创 2021-05-18 16:12:13 · 934 阅读 · 0 评论 -
OLAP 系统选型,选 Apache Kylin 还是 ClickHouse?
看到一篇不错的文章,做个记录,文章来源:https://mp.weixin.qq.com/s/n97lZGvU_vXLbpXAW61JNgOLAP 系统选型,选 Apache Kylin 还是 ClickHouse?大数据与机器学习文摘前天以下文章来源于apachekylin,作者周耀apachekylinApache Kylin 公众号,介绍 Kylin 的功能特性、应用案例、经验分享、社区资讯、活动等。更多信息,请访问 Kylin 官网:http://kylin.io;相关技..转载 2021-05-10 11:24:34 · 300 阅读 · 0 评论
分享