- 博客(23)
- 资源 (4)
- 收藏
- 关注
原创 Spark参数详解
写博客只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!--num-executors设置任务executor个数,默认值为4,一般调整此参数需要同时调整并行度(参考4)。任务设置executor个数的依据是业务期望任务运行时间,可以先设置一个较小值,通过调整此参数及并行度直到任务运行时间达到期望。--executor-cores设置单个execut...
2024-06-18 19:33:53
1472
1
原创 spark常见问题
写文章只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!1. 执行Broadcast大表时,等待超时异常(awaitResult)现象:org.apache.spark.SparkException: Exception thrown in awaitResult:java.util.concurrent.TimeoutException: Futures ...
2024-06-18 19:33:35
1935
1
原创 关于hive当中表的存储和压缩方式总结
这几天研究hive表的存储方式和压缩模式。在这里做一个简单的总结hive表的存储样例 : 我的表:rp_person_house_loan_info 数据总量:1933776textfile: (1)hive数据表的默认格式,存储方式:行存储 。 (2)可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split上面的数据存储格...
2020-03-12 12:08:30
903
原创 记一次DataFrame未cache或persist的踩坑经历
实际踩的坑,业务逻辑很复杂,这里简单模拟描述下,现有hive表hive_tab,mysql表 mysql_tab,它们各自的数据如下: hive_tab mysql_tab ...
2020-03-12 12:07:06
1185
转载 Spark读写HBase实践
Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。1.1 maven依赖需要引入Hadoop和HBase的相关依赖,版本信息根据实际情况确定。 <properties> <hadoop.version>2.6.0-cdh5.7....
2019-05-24 20:38:00
359
转载 Spark操作Hive分区表
原作者写的比较清楚了,特别是DDL建了表后,又用Spark向表里写数据常常写不进去,会报异常。原文地址:https://dongkelun.com/2018/12/04/sparkHivePatition/前言前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插...
2019-05-23 10:04:48
2668
转载 Apache Kafka核心概念-多图-形象易懂(入门教程轻松学)
原文链接。https://blog.youkuaiyun.com/liyiming2017/article/details/82805479目录:kafka简介 kafka安装和使用 kafka核心概念 kafka核心组件和流程--控制器 kafka核心组件和流程--协调器 kafka核心组件和流程--日志管理器 kafka核心组件和流程--副本管理器 kafka编程实战本章是学习ka...
2019-05-05 17:56:27
224
原创 Spark读取mysql大数据量最佳实践 备忘
受B站,大疆在git上代码泄露影响,公司网络干脆不能登git,也不能登开源中国的码云了 ,所以在优快云这做做日常记录吧。至于最佳实践,噱头嘛~~~Spark读取关系型数据库,官方有API接口,如下: ①、SparkSession.read.jdbc(url, table, properties) ②、SparkSession.read.jdbc(url, table, c...
2019-04-29 11:13:34
5374
4
原创 mybatis generator 备忘
<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE generatorConfiguration PUBLIC "-//mybatis.org//DTD MyBatis Generator Configuration 1.0//EN" "http://mybatis.org/dtd/mybatis-generator-config_...
2019-04-28 16:51:14
120
原创 SpringBoot中事务配置
SpringBoot创建的项目,默认没有事务,还是需要自己配,真是日了狗。还有那个启动类,对,就是包含main方法的那个类一定要放在包的最外层,最外层,最外层,不然有很多坑。包括但不限于不能扫描到你配置的类,连接ES时自定义接口无法自动注入等等。1.Xml方式跟Spring中差不多两步骤①.在resources文件夹下创建xml文件。例如:transaction.xml别问我为...
2019-04-11 14:36:12
42519
15
转载 MyBatis的一级缓存实现详解 及使用注意事项
0.写在前面MyBatis是一个简单,小巧但功能非常强大的ORM开源框架,它的功能强大也体现在它的缓存机制上。MyBatis提供了一级缓存、二级缓存 这两个缓存机制,能够很好地处理和维护缓存,以提高系统的性能。本文的目的则是向读者详细介绍MyBatis的一级缓存,深入源码,解析MyBatis一级缓存的实现原理,并且针对一级缓存的特点提出了在实际使用过程中应该注意的事项。...
2019-03-18 17:38:34
187
转载 Spark on Yarn的运行原理
一、YARN是集群的资源管理系统1、ResourceManager:负责整个集群的资源管理和分配。2、ApplicationMaster:YARN中每个Application对应一个AM进程,负责与RM协商获取资源,获取资源后告诉NodeManager为其分配并启动Container。3、NodeManager:每个节点的资源和任务管理器,负责启动/停止Container,并监视...
2019-03-13 17:00:25
1069
转载 Spark 创建RDD、DataFrame各种情况的默认分区数
Spark 创建RDD、DataFrame各种情况的默认分区数2018-08-13Spark DataFrame Partition Rdd前言熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDF...
2019-03-11 16:15:47
1361
原创 ResultSet转换为DataFrame
但凡能这样写 val prop = new java.util.Properties prop.put("url", "jdbc:mysql://10.37.140.228:3306/dam?characterEncoding=UTF-8") prop.put("dbtable", "(select * from tableA where meta_create_ti...
2019-01-17 11:21:54
4075
4
原创 记一次yarn环境中应用程序jar冲突解决办法
用户编写的spark程序打包成jar后提交到yarn执行时,经常会遇到jar包中明显存在某个类,但任务提交到yarn运行时却找不到类或方法(java.lang.NoSuchMethodError)的问题。仔细看自己代码,明明有这个jar,那多半就是jar冲突了。只有当jar的版本不一致时候才会冲突,那么本着治本精神去百度,可以找到如下文章https://www.jianshu.com/p/...
2018-12-18 15:04:04
2507
转载 深入理解SpringMVC(经典好文系列)
转载的一篇文章,作者写的真的太好了,如果作者是个女的,我一定去日了她(三年起步)……深入理解Spring MVC 思想目录 一、前言二、spring mvc 核心类与接口三、spring mvc 核心流程图四、spring mvc DispatcherServlet说明五、spring mvc 父子上下文的说明六、springMVC-mvc.xml 配置文件片段讲解 七、spring mvc 如何...
2018-04-12 14:22:02
900
1
转载 log4j
一、Log4j简介Log4j有三个主要的组件:Loggers(记录器),Appenders (输出源)和Layouts(布局)。这里可简单理解为日志类别,日志要输出的地方和日志以何种形式输出。综合使用这三个组件可以轻松地记录信息的类型和级别,并可以在运行时控制日志输出的样式和位置。1、LoggersLoggers组件在此系统中被分为五个级别:DEBUG、INFO、WARN、
2017-12-06 22:50:15
308
原创 最新JavaEE版本安装tomcat插件
一些老版本的eclipse可以安装这个tomcat插件 com.sysdeo.eclipse.tomcat_3.3.1.jar。但对以下版本eclipse不适用,要用这个net.sf.eclipse.tomcat_9.0.1.jar插件才可以安装步骤:1.关闭eclipse2.下载net.sf.eclipse.tomcat_9.0.1.jar (下载链接在文章后)3.找ecl
2017-10-26 16:10:19
1765
1
原创 工作了3年的JAVA程序员应该具备什么技能
首页 > 职场攻略 > 职场杂谈 > 正文工作了3年的JAVA程序员应该具备什么技能?来源:五百丁 作者:LZ 2016-03-18因为和同事有约定再加上LZ自己也喜欢做完一件事之后进行总结,因此有了这篇文章。这篇文章大部分内容都是面向整个程序员群体的,当然因为LZ本身是做Java开发的,因此有一部分内容也是专门面向咱们Java程序员
2016-07-27 09:19:37
21853
1
转载 Callable, Runnable比较及用法
Callable,Runnable比较及用法 |字号 订阅编写多线程程序是为了实现多任务的并发执行,从而能够更好地与用户交互。一般有三种方法,Thread,Runnable,Callable.Runnable和Callable的区别是,(1)Callable规定的方法是call(),Runnable规定的方法是run().(2)Calla
2013-12-25 12:13:35
525
转载 Executors 框架
从JDK1.5开始,增加了一个执行并行任务的框架——Executor框架。框架在java.util.concurrent包中。Executor是框架中的一个接口,使用Executor可以同步或异步地执行任务。异步任务可以放在多线程中处理,但使用Executor比直接创建线程处理任务有很多好处,比如设置任务开始时间,取消任务队列,控制任务队列执行策略等,而且使用Executor可以很容易地创
2013-12-25 11:32:35
1205
转载 ThreadPoolExecutor 线程池 多线程
1.1 构造函数详解从 Java 5 开始,Java 提供了自己的线程池。线程池就是一个线程的容器,每次只执行额定数量的线程。 java.util.concurrent.ThreadPoolExecutor 就是这样的线程池。它很灵活,但使用起来也比较复杂,本文就对其做一个介绍。首先是构造函数。以最简单的构造函数为例:public ThreadPoolExecutor(
2013-12-24 11:07:23
1415
SecureCRT工具类中文破解版-解压版
2018-04-10
net.sf.eclipse.tomcat_9.0.1.jar
2017-10-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人