- 博客(7)
- 收藏
- 关注
转载 sparkstreaming和kafka集成的两种方式
转载地址:https://blog.youkuaiyun.com/weixin_39478115/article/details/78884876
2019-01-09 19:37:10
310
转载 Spark 创建RDD、DataFrame各种情况的默认分区数
转载自董可伦的博文:https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/
2018-12-17 14:25:31
705
原创 spark的持久化和checkpoint的区别
RDD 可以使用 persist() 方法或 cache() 方法进行持久化cache 底层调用的是 persist 方法,存储等级为: memory only,persist 的默认存储级别也是 memory only,persist 与 cache 的主要区别是 persist 可以自定义存储级别。哪些 RDD 需要 cache ? 会被重复使用的(但是)不能太大的RDD需要cache,ca...
2018-12-14 22:12:54
925
转载 spark会产生shuffle的算子
去重def distinct()def distinct(numPartitions: Int)聚合def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)...
2018-12-14 21:30:51
2633
原创 利用sed命令删除一行数据首尾的[]
命令:删除行首的"[":sed -i ‘s/^[//g’ /root/test.json删除行尾的"]":sed -i ‘s/]$//g’ /root/test.json也可以把两条命令和在一起:sed -i ‘/./{s/^[//;s/]$//}’ /root/test.json但是,此时会出现一个问题,行首的"[“可以去掉,但是行尾的”]"却删不掉,原因如下:linux系统里,每行结...
2018-11-26 16:03:05
1663
原创 HBase整合Hive问题记录
HBase整合Hive问题记录FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org/apache/hadoop/ hbase/HBaseConfiguration描述:HBase和Hive单独使用均没有问题,但是基于HBase创建Hive表时报错错误记录FAILED: ...
2018-11-22 19:20:58
234
原创 JDBC-自定义连接池
【连接池的原理】 在javax.sql.DataSource接口–连接池的接口 功能:初始化多个连接.把多个连接放入到内存中 归还:将连接对象放回到内存中 【自定义连接池】 step1.创建类MyDataSource实现DataSource接口 step2.在JDBCUtils类中创建连接池,获取数据库...
2018-08-29 20:10:12
438
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人