- 博客(10)
- 资源 (1)
- 收藏
- 关注
原创 使用spark的api读取mongo版本不兼容问题
spark版本2.1.1mongo版本3.6.11使用spark的api读取mongo有NoSuchMethod等此类错误。val spark = SparkSession.builder() .master("local") .appName("MongoSparkConnectorIntro") .config("spark.mongodb.input.uri", "mo...
2019-11-01 18:24:14
223
原创 spark jar包 瘦身
最近因为现场工程部署需要,需要上传jar包到云盘,结果多个spark的工程的jar包超过了2G的上传上限。就在考虑优化方案,后发现spark的核心公用包是可以被剔除的。由于工程结构为maven项目,所以只是针对maven项目。方法如下:修改代码工程的pom文件,将spark相关的dependency的scope修改为provided例如:一下依赖都可改为修改为provided...
2019-07-16 15:47:37
533
原创 maven编译项目时提示:cached in the local repository
今天使用命令mvn compile编译maven项目时提示错误信息,部分错误信息如下:...... was cached in the local repository, resolution will not be reattempted until the update interval of nexus ......定位结果:因为需要使用的greenplum数据库,所以使用了驱动包...
2019-05-23 16:38:15
1103
原创 数据存储单位大小
数据存储单位大小,从大到小排序!附:进制单位全称及译音mega, [兆],M. 10^6,giga, [吉]咖, G. 10^9,tera, [太]拉, T. 10^12,peta, [拍]它, P. 10^15,exa, [艾]可萨, E. 10^18,zetta, [泽]它, Z. 10^21,yotta, [尧]它, Y. 10^24 ...
2018-12-17 14:03:10
4037
转载 spark性能调优之广播大变量
广播变量广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。Spark的动作通过一系列的步骤执行,这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存,在运行任务之前被反序列化出来。这意
2017-11-28 15:03:14
433
转载 Python学习-Python数据类型
整数Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例如:1,100,-8080,0,等等。计算机由于使用二进制,所以,有时候用十六进制表示整数比较方便,十六进制用0x前缀和0-9,a-f表示,例如:0xff00,0xa5b4c3d2,等等。浮点数浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示时,一个浮点数的小数点位置
2017-10-27 11:25:23
250
原创 常用的spark数据读取和保存
个人收录自己常用的集中数据保存和读取方式1、从外部读取数据之textFile 读取var departmentData = getLoadDepartment(sqlCon,"hdfs://cnsz17pl1443:8020/spark/ddt/ASRUA_TM_DEPARTMENT") def getLoadDepartment(spark: SparkSession,
2017-10-26 11:03:02
889
转载 spark是什么及体系概述
Spark初见Spark是一个基于内存的开源计算框架,于2009年诞生于加州大学伯克利分校AMPLab(AMP:Algorithms,Machines,People),它最初属于伯克利大学的研究性项目,后来在2010年正式开源,并于 2013 年成为了 Apache 基金项目,到2014年便成为 Apache 基金的顶级项目,该项目整个发展历程刚过六年时间,但其发展速度非常惊人。正由于Sp
2017-10-11 10:33:56
629
原创 ubantu下安装f.lux
我个人一直觉得能够大量被使用的东西不一定最好的,但一定是最省事省时间的。在ubantu下安装f,lux这个事情把我恶心不小。1、到官网网站找到flux的地址https://launchpad.net/ubuntu/+ppas2、搜索f.lux 找到f.lux GUI地址,执行 语句。sudo add-apt-repository ppa:nathan-renniewaldo
2017-05-31 14:26:20
458
转载 什么是高内聚、低耦合?
什么是高内聚、低耦合? 起因:模块独立性指每个模块只完成系统要求的独立子功能,并且与其他模块的联系最少且接口简单,两个定性的度量标准――耦合性和内聚性。 耦合性也称块间联系。指软件系统结构中各模块间相互联系紧密程度的一种度量。模块之间联系越紧密,其耦合性就越强,模块的独立性则越差。模块间耦合高低取决于模块间接口的复杂性、调用的方式及传递的信息。 耦
2017-02-14 11:23:09
340
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人