- 博客(23)
- 收藏
- 关注
原创 spark-submit提交任务报错:java.sql.SQLException:No suitable driver
spark在集群中提交任务时如果需要连接mysql需要设定三个参数,配置连接数据库的jar包
2023-11-24 20:47:34
610
原创 A-3:ZAB(zookeeper原子广播协议)
ZAB协议是专门为Zookeeper设计的一种支持崩溃恢复的原子广播协议,因为当ZAB协议中的Leader角色崩溃时,。
2023-09-02 10:06:05
156
原创 datax数据类型与数据库/数仓的对应关系
Boolean -> 字符串序列化表示。Double -> 字符串序列化表示。String -> 字符串序列化表示。Long -> 字符串序列化表示。Date -> 字符串序列化表示。KingbaseES 数据类型。PostgreSQL 数据类型。Cassandra 数据类型。SqlServer 数据类型。Phoenix 数据类型。MongoDB 数据类型。ADB PG 数据类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。
2023-08-17 17:53:41
305
原创 Hive分区修复命令MSCK介绍与使用
批量导入数据:先将linux上的数据放到hdfs上hive分区表对应的路径下,然后运行MSCK命令将表的元数据信息同步到hdfs
2023-08-09 09:38:34
825
原创 hive中的decimal类型
(Decimal)小数点Hive中的DECIMAL类型与Java的Big Decimal格式相同。它用于表示不变的任意精度。
2023-08-09 00:43:27
2132
原创 十大经典排序算法
比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此也称为非线性时间比较类排序。非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比较排序的时间下界,以线性时间运行,因此也称为线性时间非比较类排序。
2023-08-08 19:24:00
53
原创 JVM重用
这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。如果某个“不平衡的”job中有某几个reduce task执行的时间要比其他Reduce task消耗的时间多的多的话,那么保留的插槽就会一直空闲着却无法被其他的job使用,直到所有的task都结束了才会释放。JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。
2023-08-07 10:36:41
128
原创 kyro序列化
Kryo 是一个快速序列化/反序列化工具,正因如此,其使用也只能限制在基于 JVM 的语言上。- 已经成为多个知名 Java 框架的底层序列化协议,包括但不限于Apache Fluo、Apache Hive、Apache Spark、Storm、Apache Dubo
2023-08-05 16:29:11
297
原创 repartition 和 coalesce算子
1、区别:coalesce可以指定是否发生shuffle;repartition不能指定,相当coalesce(numPartitions,true)2、应用:增加RDD的分区数就直接使用repartition算子,如果要减少RDD分区数,要使用coalesce(number,false)
2023-08-02 02:36:46
75
原创 spark中makerdd和parallelize的区别
makeRDD底层还是parallelize() 方法,不同点是makeRDD()方法还提供了最佳的计算位置
2023-08-02 02:27:36
441
原创 spark sql窗口大小设定:rowsBetween方法的使用
通过范围函数可以把计算(比如:sum,min,max,avg等操作)限定在一定的范围(基于当前行的向前或向后的条数)之内。
2023-07-31 09:52:38
501
原创 RDD,DataFrame,DataSet区别
因为一旦我们使用非类型安全的类型,软件的维护周期一长,如果集合中放入了一些不合适的类型,就会出现严重的故障。之前有人把Experience译为体验,但在小猴的技术世界里,Experience更多的是自己去经历,而不能跟团去旅游一样,那样你只能是一个外包而已,想要做到卓越,就得去经历。这个DAG我们看得不是特别清楚做了什么,因为Spark SQL是做过优化的,我们需要查看Query的详细信息,才能看到具体执行的工作。而类型安全就是JVM对象的集合,类型就是scala的样例类,或者是Java的实体类。
2023-07-12 16:50:26
85
原创 DF中filter和where的区别
总的来说,filter和where都是用来筛选DataFrame中数据的函数,它们的基本功能相同,但在具体实现方式和一些细节上有所不同。
2023-07-10 00:54:51
1101
原创 Flume采集端口数据存入kafka
设置监听本地端口10050 netcat发送的socket数据,将采集到的数据存入kafka的mytopic主题中
2023-07-07 19:12:03
753
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人