
spark
文章平均质量分 81
小小鬼谷子
空谷幽兰
展开
-
进化的Spark, 从DataFrame说起
本打算写一篇spark的DataFrame的文章,结果在网上找到一篇写的非常棒的问题,就直接向大师致敬了。转载的URL:http://blueve.me/archives/1452?utm_source=tuicool&utm_medium=referral书接上回,Spark可以说就是RDDs的化身,我们已经看到RDDs的设计方案对于大数据的计算具有诸多优势,转载 2017-03-13 16:26:21 · 481 阅读 · 0 评论 -
从RDDs到Spark
这哥们的论文用大白话讲的非常好,再次致敬一下。转载URL:http://blueve.me/archives/1437Spark是近年来非常火爆的分布式计算框架,可以说它紧跟Hadoop的脚步,并且在很多方面实现了超越。在Spark官方的宣传中我们也可以看到,Hadoop能做到的事情,Spark也可以做,而且通常可以做得更好。事实上,越来越多的业内公司都开始试水Spar转载 2017-03-13 22:18:21 · 524 阅读 · 0 评论 -
理解Spark的核心RDD
这篇文章也是对spark论文的翻译,就直接拿过来了转载URL:http://www.infoq.com/cn/articles/spark-core-rdd/与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Grap转载 2017-03-15 18:14:20 · 304 阅读 · 0 评论 -
spark任务提交参数
~/spark$ bin/spark-submit Usage: spark-submit [options] [app arguments] Usage: spark-submit --kill [submission ID] --master [spark://...] Usage: spark-submit --status [submission ID] --master [spark:原创 2017-04-17 10:02:21 · 1284 阅读 · 0 评论 -
SparkSQL中DataFrame常用API
package com.fosun.sparkdemo;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;impor原创 2017-04-17 11:18:13 · 3358 阅读 · 0 评论 -
spark streaming读取kafka数据,记录offset
如下是pom.xml文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xs原创 2017-06-15 15:13:24 · 6283 阅读 · 1 评论 -
安装spark集群及spark介绍
Spark的介绍Hadoop与StromHadoop:MapReduce:为海量数据提供了计算,但只有Map和Reduce操作,操作不灵活。HDFS(分布式文件系统):为海量的数据提供了存储。(把全部计算机的存储能力合在一起,数据通过网络在节点之间传输)。 Strom:一个分布式的、容错的实时计算系统。 大数据处理复杂的批量数据处理(batch da原创 2017-10-12 09:49:33 · 528 阅读 · 0 评论