
大数据计算-Spark
HuFeiHu-Blog
知无涯者,虚心若愚,求知若饥,勇者天佑!
展开
-
实时流Streaming大数据:Storm,Spark和Samza
当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。Apache Storm 在Storm中,你设计的实时计算图称为toplogy,将其以集群方式运行,其主节点会在工作节点之间分发代码并执行,在一个topology中,数据是在spout之间传递,它发射数据流作为不可变的key-value匹配集合,这种key-v...转载 2019-01-20 00:42:35 · 331 阅读 · 0 评论 -
MongoDB + Spark: 完整的大数据解决方案
MongoDB上海的活动已经结束快1个月了,我们再来回顾一下TJ在大会上进行的精彩分享吧~ MongoDB + Spark: 完整的大数据计算解决方案。Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习转载 2017-08-09 23:02:45 · 2935 阅读 · 0 评论 -
spark使用scala读取Avro数据
为什么使用 Avro ?最基本的格式是 CSV ,其廉价并且不需要顶一个一个 schema 和数据关联。随后流行起来的一个通用的格式是 XML,其有一个 schema 和 数据关联,XML 广泛的使用于 Web Services 和 SOA 架构中。不幸的是,其非常冗长,并且解析 XML 需要消耗内存。另外一种格式是 JSON,其非常流行易于使用因为它非常方便易于理解。转载 2017-08-07 16:26:21 · 4473 阅读 · 0 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统
Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spar转载 2017-07-23 08:19:14 · 363 阅读 · 0 评论 -
Spark高级数据分析(1) ——纽约出租车轨迹的空间和时间数据分析
本文在之前搭建的集群上,运行一个地理空间分析的示例,示例来自于《Spark高级数据分析》第八章。 Github项目地址:https://github.com/sryza/aas/tree/master/ch08-geotime , 这个例子是通过分析纽约市2013年1月份的出租车数据,统计纽约市乘客下车点落在每个行政区的个数。 在开始正文之前,需要掌握以下基础知识:Scal转载 2017-06-10 22:24:18 · 2695 阅读 · 1 评论 -
基于Docker布署分布式hadoop环境
1.安装Docker 安装Docker的方法这里不再详述,根据自己的操作系统在网上有一大堆教程。今天我们的主要任务是在DOCKER上布署Hadoop。 2.下载 ubutun镜像docker pull ubuntu:14.0411这条命令的作用是从Docker仓库中获取ubuntu的镜像,下载完成以后,使用docker images,可以列出所有本地的镜像 Docker常用转载 2017-06-05 16:14:32 · 550 阅读 · 1 评论 -
IntelliJ IDEA开发Spark、打JAR包
一、基于Non-SBT方式创建一个Scala IDEA工程我们使用Non-SBT的方式,点击“Next”命名工程,其他按照默认点击“Finish”完成工程的创建修改项目的属性首先修改Modules选项在src下创建两个文件夹,并把其属性改为source下面修改Libr转载 2017-05-26 07:53:07 · 643 阅读 · 0 评论 -
深入浅出 RPC - 浅出篇
近几年的项目中,服务化和微服务化渐渐成为中大型分布式系统架构的主流方式,而 RPC 在其中扮演着关键的作用。在平时的日常开发中我们都在隐式或显式的使用 RPC,一些刚入行的程序员会感觉 RPC 比较神秘,而一些有多年使用 RPC 经验的程序员虽然使用经验丰富,但有些对其原理也不甚了了。缺乏对原理层面的理解,往往也会造成开发中的一些误用。本文分上下两篇《浅出篇》和《深入篇》,其目标就是想转载 2017-04-04 09:21:45 · 428 阅读 · 0 评论 -
Spark图计算GraphX介绍及实例
1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。Sp转载 2017-04-11 12:22:37 · 921 阅读 · 0 评论 -
Spark图计算GraphX介绍及实例
1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。Sp转载 2017-04-11 12:20:28 · 4516 阅读 · 0 评论 -
基于Docker搭建Hadoop集群之升级版
摘要: kiwenlau/hadoop-cluster-docker是去年参加Docker巨好玩比赛开发的,得了二等奖并赢了一块苹果手表,目前这个项目已经在GitHub上获得了236个Star,DockerHub的镜像下载次数2000+。总之,项目还算很受欢迎吧,这篇博客将介绍项目的升级版。作者: KiwenLau日期: 2016-06-12一. 项目介绍将Hadoop打包转载 2017-04-07 16:30:02 · 697 阅读 · 0 评论 -
Spark Streaming
Spark Streaming Spark Streaming 是Spark为了用户实现流式计算的模型。数据源包括Kafka,Flume,HDFS等。DStream 离散化流(discretized stream), Spark Streaming 使用DStream作为抽象表示。是随时间推移而收到的数据的序列。DStream内部的数据都是RDD形式存储, DStr转载 2017-09-23 11:41:45 · 277 阅读 · 0 评论 -
写给大数据开发初学者的话
导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火转载 2017-12-21 21:06:59 · 554 阅读 · 1 评论 -
实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣
From http://www.dataguru.cn/article-9532-1.html 分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。 分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,但我们期望延迟...转载 2019-01-20 00:43:15 · 642 阅读 · 0 评论 -
Stream 分布式数据流的轻量级异步快照
1. 概述分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影响数据摄取的整体计算过程。其次,持久化存储所有传输中的记录以及算子状态,这会导致比所需的快照要更大。因此,提出了一种新的分布式快照的算法,即在 A...转载 2019-01-08 14:31:27 · 336 阅读 · 0 评论 -
Spark在美团是怎么实现的
目录1. 美团离线计算平台架构都有哪些框架?2. 为什么要使用Spark架构?3. spark推广过程中需要注意哪些方面?前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效...转载 2019-01-08 14:29:53 · 431 阅读 · 0 评论 -
Hadoop/Spark相关面试问题总结
面试回来之后把其中比较重要的问题记了下来写了个总结: (答案在后面)1、简答说一下hadoop的map-reduce编程模型2、hadoop的TextInputFormat作用是什么,如何自定义实现3、hadoop和spark的都是并行计算,那么他们有什么相同和区别4、为什么要用flume导入hdfs,hdfs的构架是怎样的5、map-reduce程序运行的时候会有什么比较...转载 2019-01-08 14:29:07 · 299 阅读 · 0 评论 -
资源list:Github上关于大数据的开源项目、论文等合集
Awesome Big DataA curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.Your contr...转载 2018-10-15 20:58:31 · 1532 阅读 · 0 评论 -
基于Apache Zeppelin Notebook和R的交互式数据科学
介绍这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、She...转载 2018-04-02 18:34:55 · 817 阅读 · 0 评论 -
数据科学工具箱: SparkR vs Sparklyr
文章转载自:https://segmentfault.com/a/1190000013806395背景介绍SparkR 和 Sparklyr 是两个基于Spark的R语言接口,通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护,通过源码级别更新SparkR的最新功能,最初从2016年夏天的1.5版本开始支持,从使用上非常像Spark Native。Sparklyr 由 R...转载 2018-04-02 18:05:04 · 995 阅读 · 0 评论 -
大数据真实案例:Spark在美团的实践
美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主,底层计算引擎为MapRe...转载 2018-03-11 11:01:27 · 12870 阅读 · 2 评论 -
PyCharm 远程连接linux中Python 运行pyspark
PySpark in PyCharm on a remote server1、确保remote端Python、spark安装正确2、remote端安装、设置vi /etc/profile添加一行:PYTHONPATH=SPARKHOME/python/:SPARK_HOME/python/lib/py4j-0.8.2.1-src.zipsource /etc/profile转载 2018-01-05 11:30:58 · 5782 阅读 · 0 评论 -
PySpark处理数据并图表分析
PySpark简介官方对PySpark的释义为:“PySpark is the Python API for Spark”。 也就是说pyspark为Spark提供的Python编程接口。Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark,一个Spark的python shell,可以以交互式的方式使转载 2017-11-27 15:39:54 · 9868 阅读 · 1 评论 -
Hadoop之—— WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...
转载请注明出处:http://blog.youkuaiyun.com/l1028386804/article/details/51538611配置完Hadoop启动的时候出现如下警告信息:[html] view plain copy WARN util.NativeCodeLoader: Unable to load native-hadoop library for转载 2017-03-22 12:49:58 · 563 阅读 · 0 评论 -
hadoop 2.6.0编译native library
本文中的所有路径请根据个人情况修改。编译好的native library见个人资源:【http://download.youkuaiyun.com/detail/tterminator/9565597】一、为什么要编译native librarymac单机模式安装Hadoop后启动,报错:WARN util.NativeCodeLoader: Unable to load native-hadoo转载 2017-03-22 01:48:59 · 830 阅读 · 0 评论 -
2分钟读懂Hadoop和Spark的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普转载 2016-11-13 12:47:55 · 274 阅读 · 0 评论 -
Spark是什么?用Spark进行数据分析
1. 什么是Apache Spark?Apache Spark是一个为速度和通用目标设计的集群计算平台。从速度的角度看,Spark从流行的MapReduce模型继承而来,可以更有效地支持多种类型的计算,如交互式查询和流处理。速度在大数据集的处理中非常重要,它可以决定用户可以交互式地处理数据,还是等几分钟甚至几小时。Spark为速度提供的一个重要特性是其可以在内存中运行计算,即使对基于磁盘的转载 2016-11-13 12:46:50 · 2261 阅读 · 0 评论 -
Spark UI界面原理
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+] 当Spark程序在运行时,会提供一个Web页面查看Application运行状态信息。是否开启UI界面由参数spark.ui.enabled(默认为true)来确定。下面列出Spark UI一些相关配置参数,默认值,以及其作用。参数默认值作用描述spark转载 2016-11-11 16:50:11 · 1886 阅读 · 0 评论 -
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门转载 2016-10-19 23:55:55 · 637 阅读 · 0 评论 -
Spark入门实战系列--1.Spark及其生态圈简介
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark转载 2016-10-19 23:50:34 · 486 阅读 · 0 评论 -
Spark简介
Spark简介[TOC]Spark是什么Spark是基于内存计算的大数据并行计算框架Spark是MapReduce的替代方案Spark与HadoopSpark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛地说还包括在其生态系统上的其他系统.Spark的优势中间结果输出基于MapReduce的计算引擎转载 2016-11-10 15:58:20 · 725 阅读 · 0 评论 -
安装Hadoop及Spark(Ubuntu 16.04)
安装JDK下载jdk(以jdk-8u91-linux-x64.tar.gz为例)新建文件夹sudo mkdir /usr/lib/jvm解压下载的jdk文件并移动到新建的文件夹下sudo tar -xzvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jvm进入jvm文件夹并重命名解压出来的文件夹cd /usr/lib转载 2016-11-10 15:57:28 · 326 阅读 · 0 评论 -
从零开始安装配置Hadoop 2.7.2+Spark 2.0.0到Ubuntu 16.04
raw to Spark0 install ubuntu 14.04.01 desktop x641 system基础配置《以下都是root模式》1.3 root passwordsudo passwd root1.5 root登录选项a.在terminal下输入:vi /usr/share/lightdm/lightdm.con转载 2016-11-10 14:42:18 · 1647 阅读 · 0 评论 -
spark 集群部署可用方法
本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。写在前面二: 使用软件说明 约定,Spark相关软件存放目录: /usr/local/yujianxin/spark,Hadoop相关软件存放目录: /home/yujianxin/hadoop。 Spark集群示意图 一、具体转载 2016-11-10 14:36:32 · 412 阅读 · 0 评论 -
hadoop集群安装文档
可用的hadoop集群安装文档2016-09-03 09:30 271人阅读 评论(0)收藏举报分类: 更新(35) 目录(?)[+]本教程讲述如何配置 Hadoop 集群,默认读者已经掌握了 Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置 或CentOS安装Hado转载 2016-11-10 14:35:17 · 372 阅读 · 0 评论 -
安装Hadoop及Spark for Ubuntu 16.04
安装JDK下载jdk(以jdk-8u91-Linux-x64.tar.gz为例)新建文件夹sudo mkdir /usr/lib/jvm解压下载的jdk文件并移动到新建的文件夹下sudo tar -xzvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jvm进入jvm文件夹并重命名解压出来的文件夹cd /usr/lib转载 2016-11-10 14:31:56 · 396 阅读 · 0 评论 -
Spark官方文档 - 中文翻译
转载请注明出处:http://www.cnblogs.com/BYRans/1 概述(Overview)2 引入Spark(Linking with Spark)3 初始化Spark(Initializing Spark)3.1 使用Spark Shell(Using the Shell)4 弹性分布式数据集(RDDs)4.1 并行集合(Parallelized转载 2016-11-14 12:43:52 · 1914 阅读 · 0 评论 -
Spark中文手册10:spark部署:提交应用程序及独立部署模式
问题导读1.spark-submit各个参数的含义是什么?2.集群启动都包含哪些脚本?3.如何实现连接一个应用程序到集群中?Spark中文手册-编程指南Spark之一个快速的例子Spark之基本概念Spark之基本概念Spark之基本概念(2)Spark之基本概念(3)Spark-sql由入门到精通Spark-sql由入门到精通续sp转载 2016-11-14 12:45:26 · 857 阅读 · 0 评论 -
HBase停止集群报错,pid: No such file or directory
HBase停止集群报错,pid不存在的问题 停止HBase集群时报错如下: [plain] stopping hbasecat: /tmp/hbase-mango-master.pid: No such file or directory 原因是,默认情况下pid文件保存在/tmp目录下,/tmp目录下的文件很容易丢失(重启后基本就会删除),解决办法:在hbase-env原创 2017-03-22 01:46:09 · 2139 阅读 · 0 评论 -
Spark on YARN分布式部署文档
环境:Ubuntu 12.04 LTS Desktop 64bit提示:这里只用了一台机器同时做master节点和slave节点,如果想要分布式部署,即多个slave节点,准备环境部分一样,然后配置文档做一些修改增加slave节点就行,看完这份文档就知道怎么修改了0.准备环境我这里全程都是不用root模式的。0.1 设置用户名我这里设成master0.2 配置hosts文档转载 2017-03-22 01:24:10 · 407 阅读 · 0 评论