
spark
文章平均质量分 69
公众号【禅与大数据】,欢迎订阅
禅与大数据
展开
-
centos7.2(linux)+spark2.1.0安装
centos7.2(linux)+spark2.1.0安装介绍下spark在Linux上的安装.原创 2017-07-02 22:56:04 · 953 阅读 · 0 评论 -
大量csv数据的查询和计算的技术实现路径分析(1)
在工作中,会有处理很多数据的场景。比如,用户需求:我有大量数据,(1)我想要高效查询我想要的数据。(2)我想要高效计算出我想要的结果数据。为了存储数据,我们使用的数据存储方式有:mysql,oracle,表;csv文件excel文件hdfs文件系统hbaseredis,ehcache把数据从存储区拿出来作分析,我们使用的数据分析手段有:jav...原创 2018-04-14 12:23:01 · 2201 阅读 · 0 评论 -
spark常见操作系列(3)--spark读写hbase(2)
接着上一篇, 问题(2):scan有scan.setCaching(10000)scan.setCacheBlocks(true)等设定.setCaching ,个人感觉不够用.hbase 默认是在内存里面放一块数据用来读取,所以读取效率比较高,可是,其余大部分数据还是在硬盘中,这个内存数据块的设定和意义,待清晰研究.单节点hbase的写入效率,有人粗估计,在3万-5万,这个...原创 2018-06-21 21:35:19 · 2116 阅读 · 0 评论 -
处理大量csv数据和模型数据有关大数据组件选型的例子分析
大数据技术对处理大批量数据和在分布式计算上,较传统技术优势明显。那么,借大数据技术在处理航空数据上是否有用武之地?本文接下来讨论使用大数据组件来处理航空数据。航空数据有的数据以csv文件格式存储,统计分析航空数据有很多潜在价值,尽管有可观的分析价值,但这里仍跟大数据技术扯不上关系。所以,笔者准备从案例的角度,来尝试讨论下自己的观点。案例一假设一个航空公司的某业务一天生成100个...原创 2018-06-21 21:55:47 · 2710 阅读 · 0 评论 -
使用JMC工具对spark 程序调优(一)
spark调优是一个头疼的事,这个疼在什么地方呢? (1)spark将内部几乎完全封装,类似黑箱,不了解内部机理; (2)spark 调优参数众多,参数之间关联很多; (3)spark运行在集群上,本地调试功能有限。...原创 2018-07-16 11:39:44 · 846 阅读 · 0 评论 -
使用JMC工具对spark 程序调优(二)
待更新原创 2018-07-30 08:58:13 · 433 阅读 · 0 评论 -
使用JMC工具对spark 程序调优(三)
待更新原创 2018-07-30 08:59:09 · 465 阅读 · 0 评论 -
spark集群调优心得
最近公司搞一个spark集群项目,期间会对spark集群进行调优.虽然调优的建议网上有很多,但是通过具体实践,发现不同的场景,调节的参数还是有不一样的地方.现记录一下最近学到的一些实践手段吧.(1)要留一点资源给除spark以外的应用.我们用的是Spark-On-Yarn资源调度,每台机器有24核心,每台机器最大内存有128G,在yarn-site.xml里面,有人很可能把核心数和资源原创 2018-11-14 10:30:21 · 1231 阅读 · 0 评论 -
spark复习
scala 构造方法初始化初探原创 2018-11-14 10:33:30 · 629 阅读 · 0 评论 -
spark复习2
包含spark开发流程和常用技术代码原创 2018-12-04 21:25:12 · 334 阅读 · 0 评论 -
spark常见操作系列(3)--spark读写hbase(1)
spark读写hbase,先写一下hbase的常用操作方式.hbase建表:create 'hbase_test_table', 'info', {NAME=>'info', SPLITALGO => 'HexStringSplit', REPLICATION_SCOPE =>0}, SPLITS => ['S0','S1','S2', 'S3', 'S4'...原创 2018-03-18 23:23:39 · 1564 阅读 · 0 评论 -
win10+intelij 开发spark程序(一)
win10+intelij 开发spark程序(一)原创 2017-08-11 16:10:04 · 558 阅读 · 1 评论 -
spark对电商用户订单行为特征分析(一)
最近在整理spark技术的应用,觉得 行为特征归类, 相似产品或相似功能推荐 这块比较热门. 网上发现一个网上大数据实验室,是厦门大学建立的一个网站,发布一些大数据的知识.其中有一个案例,叫 "淘宝双11数据分析与预测课程案例" ,我就用它练手.实验室网站链接: http://dblab.xmu.edu.cn/blog/spark/案例主要要求如下:对文本文件形式的原始数据集进原创 2017-08-11 18:47:53 · 4158 阅读 · 0 评论 -
spark1.5.2 spark-shell报错:java.util.concurrent.RejectedExecutionException
ERROR util.SparkUncaughtExceptionHandler: Uncaught exception in thread Thread[appclient-registration-retry-thread,5,main]转载 2017-11-17 14:24:28 · 2387 阅读 · 3 评论 -
spark查询任意字段,并使用dataframe输出结果
spark查询任意字段,并使用dataframe输出结果原创 2017-11-27 09:18:04 · 12311 阅读 · 1 评论 -
用ant自动compile|run|package spark程序
前段时间,需要写一个用户在前端编辑代码,后台自动生成scala程序的例子.其功能类似与web在线写代码,在线执行,出结果.一开始,不知从何下手,经同事提醒,可以用ant来自动编译程序,再结合sh脚本执行新的scala 编译后的程序. 于是折腾了一天,写了一个build.xml编译工具:原创 2017-11-26 11:38:09 · 521 阅读 · 0 评论 -
spark常见操作系列(1)--spark scala 以及hadoop不同版本的api区别
spark常见操作系列做数据处理有一段时间了,现把工作中遇到的问题和处理思路做个整理.文章分为5块,依次是:1. spark hadoop,hbase 版本划分, 以及spark1.5.2,scala2.10.4 与spark2.0, scala2.11版本区别 2. spark读写hadoop 3. spark读写hbase 4. spark广播变量的应用 5. spar...原创 2018-03-10 16:57:16 · 2121 阅读 · 0 评论 -
spark常见操作系列(2)--spark读写hadoop
真正开发大数据之前,本人折腾过hadoop,spark组件,其中把之前公司的日志放到hadoop 和hive里面去读写.但实际上,真正开发spark程序,遇到的坑,是十分多的.本篇主要介绍spark读写hadoop.hadoop的读写,有java方式,也有scala方式. 虽scala可以嵌入java代码,并不意味着直接把java 操作工具类放到scala程序就行了. hadoop 一般...原创 2018-03-10 19:14:58 · 3081 阅读 · 0 评论 -
通过jupyter远程编写代码,并远程提交到spark集群执行
几个月前折腾了一番jupyter(web 代码编辑器),感觉jupyter在编写某些科学文章是比较灵活.不过几乎是单机版的,在生产环境应用有限.之前因为需要在集群上执行编辑的代码,遂查找资料,又折腾了一番,使得jupyter可以应用于集群环境.我们的需求类似使用者可以写点简单的程序,然后在集群上面执行代码. 程序是python语言的.所以,集群是pyspark集群.在spark包下面,会有pysp...原创 2018-03-03 18:08:32 · 6169 阅读 · 1 评论 -
使用Spark rdd 开发spark程序
文章目录1.常用的rddrdd的输入和输出,scala版,java版每个rdd函数的使用场景特殊rdd的使用选择reduceByKey,groupByKey,的使用选择collect,count的使用选择总结1.常用的rdd函数说明map(func)返回一个新的分布式数据集,由每个原元素经过func函数转换后组成filter(func)返回一个新的数据集,由经过f...原创 2019-05-30 12:01:13 · 424 阅读 · 0 评论