
大数据-计算框架-spark
文章平均质量分 50
freshghost1234
这个作者很懒,什么都没留下…
展开
-
spark-基准测试
背景因成本影响,公司想从高价格的阿里云转到价格较低的金山云上,让我们做一下对金山云上自带的spark_on_yarn 进行压力测试。经过多方讨论,最终选择sparkbench+ambari的方案。方案将采用梯度测试法,对集群的磁盘I/0,网络I/O,内存使用率,cpu使用率四个纬度测试。 1.10亿条24个属性kmeans的向量数据创建、数据分析。 2.24亿条24个属性kme...原创 2018-04-27 18:48:15 · 2289 阅读 · 0 评论 -
spark- rdd、dataset和dataframe的互操作(Interoperating)
最近写spark代码的时候总是把rdd转dataset或者dataframe,再此将转换的途径总结一下rdd转dataset第一种,使用隐式函数toDFimport spark.implicits._ //spark是你实例化的sparksession,rdd1.toDF()/或者 toDF("a","b","c") //a b c分别表示列名note: 如果...原创 2018-03-01 17:35:38 · 622 阅读 · 0 评论 -
spark-sql 方差和标准差
运行环境spark-shellval p=spark.read.json("file:///root/spark-2.1.1-bin-hadoop2.7/examples/src/main/resources/people.json")p.show方差和标准差 1. 求age平均值import spark.sqlval avgvule= sql("select avg(...原创 2018-02-10 17:19:56 · 8258 阅读 · 0 评论 -
spark-structstreaming-结果数据存入hbase
前言本节描述通过spark-structstreaming将结果结果数据存入hbase正文object testWriteResultToHbase{def main(args:Array[String]){ val kafkaservers=args(0) val topic=args(1) val zookeeperservers=args(2) v原创 2018-01-05 17:54:52 · 2892 阅读 · 3 评论 -
Spark-StructStreaming-计算结果写入到文本文件
前言主要讲述 StructStreaming将计算结构写入到文本文件正文package org.sun.IndustryBigDataAnalyticsPartformimport org.apache.spark.sql.SparkSessionimport java.io._import org.apache.spark.sql.ForeachWriterimport原创 2018-01-05 13:40:13 · 1751 阅读 · 1 评论 -
spark算子-aggregate
spark:aggregate /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral "zero value". This function can return a原创 2017-12-11 16:07:47 · 263 阅读 · 0 评论 -
yarn集群上完整spark作业生命周期管理
前言: spark的提交作业的原生态方式,使用spark-submit.sh脚本。使用此脚本有两个缺点: 1. spark支持提交到standalone、mesos、yarn上面。standalone和mesos是粗力度的资源调度器,yarn是细粒度。所以org.apache.spark.deploy.sparksubmit类只支持standalone和mesos的作业提交、停止、查询,并且提供原创 2017-11-22 20:23:12 · 445 阅读 · 0 评论 -
spark-schedule
作业的调度是spark一个关键组件。目的是保证作业能够准确的下发到各个数据node。 package.scala Spark’s scheduling components. This includes the org.apache.spark.scheduler.DAGScheduler and lower level org.apache.spark.scheduler.Task原创 2017-08-21 12:45:56 · 373 阅读 · 0 评论 -
spark的架构思考(一)
任何架构都是由需求分析得来,而spark是由怎么样的需求分析而来的呢?需求:怎样快速计算大数据 解决方案:将大量的数据分成很多块,让不同的计算机进行计算,然后再汇总起来,这就是简单的MR计算模型。 但是hadoop的MR计算模型,太单一,而且重度依赖IO, 新的需求:需求又来了,怎样又让它快,又让它计算模型复杂呢?需求分析: 1. 非功能性需求:计算快 什么导致MR 计算模型慢呢:原创 2017-03-16 17:34:11 · 337 阅读 · 0 评论 -
spark on yarn 模式在hdp异常处理
一、问题描述: 其中一个异常关键字: “bad substitution”二、分析问题:然后在stackoverflow发现相同提问,文中提到是因为没有制定hdp版本,我才明白spark-bin-hadoop,编译的是原生态的hadoop。三、解决方案: 英文应该都懂,我就不用翻译了。四、总结:正常情况遇见问题,不应该直接在网上找答案,诊断流程:从log或者终端中进行排查,如果不行就使用debu原创 2017-02-14 21:33:49 · 800 阅读 · 0 评论 -
spark-基于kafka_struct_streaming的ETL案例
背景: 基于流的结构化处理,越来越成为ETL的重要处理手段,使用SQL处理流数据优点可以降低数据处理的编程难度,而且能够工程化的动态配置处理格式。基于struct_streaming处理pv的简单案例数据源:kafka的topic input_std1_npanther中 输入格式:json{ "event_siteid":"kf_3004", "event_...原创 2018-06-08 15:31:14 · 1855 阅读 · 2 评论