
spark
文章平均质量分 83
Ta-ttoo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark概述
MapReduce的不足 只有两种操作,表达能力欠缺,复杂的计算实现难度大 Job的结果保存在HDFS 迭代式计算性能比较差 延时高,只适合批处理计算,交互式、实时数据处理支持不够 spark的产生是直击之前的传统的基于分布式的计算框架MapReduce的一些缺点而设计的: Speed Ease of Use 1、提供Scala、Java、Python、R的编程接口 2、提供了很多的高层API...原创 2018-11-14 20:53:00 · 143 阅读 · 0 评论 -
SparkSQL基础
SparkSQL概述 SparkSQL是Spark的结构化数据处理模块。特点如下: 数据兼容:可从Hive表、外部数据库(JDBC)、RDD、Parquet 文件、JSON 文件获取数据; 组件扩展:SQL 语法解析器、分析器、优化器均可重新定义; 性能优化:内存列存储、动态字节码生成等优化技术,内存缓存数据; 多语言支持:Scala、Java、Python; Shark即Hive on Spa...原创 2018-11-29 22:57:37 · 1763 阅读 · 0 评论 -
Spark-core知识体系总结
RDD是spark的核心概念,它是一个容错、可以并行执行的分布式数据集。 RDD包含5个特征: 1、一个分区的列表 2、一个计算函数compute,对每个分区进行计算 3、对其他RDDs的依赖(宽依赖、窄依赖)列表 4、对key-value RDDs来说,存在一个分区器(Partitioner)【可选的】 5、对每个分区有一个优先位置的列表【可选的】 Spark 以一个弹性分布式数据集(RDD)的...原创 2018-11-28 23:08:38 · 485 阅读 · 0 评论 -
Ubuntu下搭建spark2.4环境(单机版)
说明:单机版的Spark的机器上只需要安装JDK即可,其他诸如Hadoop、Zookeeper(甚至是scala)之类的东西可以一概不安装。 集群版搭建:Spark2.2集群部署和配置 一、安装JDK1.8 1、下载JDK1.8,地址 2、将下载的文件保存在 /home/qq/java下,进行解压,解压后文件夹为 jdk1.8.0_171: tar -zxvf jdk-8u171-linux-i5...原创 2018-11-23 20:14:47 · 1025 阅读 · 1 评论 -
scala安装部署
查询Scala API: http://www.scala-lang.org/api/2.11.0/index.html#scala.math.package 官网: http://www.scala-lang.org/ Scala download: https://www.scala-lang.org/download/ Java的版本:1.8.x (根据Spark版本确定) IDE:Inte...原创 2018-11-22 01:50:38 · 438 阅读 · 0 评论 -
Spark2.2集群部署和配置(CentOS)
说明 1、Spark版本:2.2.0 2、Spark下载的地址 3、Spark下载的类型:源码、编译后的软件包等 4、Spark依赖的软件/软件包: Linux(Centos 6.5) Java(1.8+) Scala(2.11.8) Hadoop(2.7) Maven(3.3.9 +)【非必须】 Python(2.7+/3.4+) R(3.1+) 假设前提: 已经设置好了虚拟机; 完成了:Li...原创 2018-11-22 00:38:14 · 423 阅读 · 0 评论 -
Spark开发环境搭建(IDEA、Maven)
在scala的学习中,我们的IDEA已经能做普通的scala开发; 如果要开发spark程序,只要引入spark相关的依赖即可 (即导入spark相关的jars); 导入spark相关的依赖有两个办法: 引入相关的jars(操作简单) 使用maven/sbt管理jars(操作复杂) Maven简介 Maven是一个跨平台的项目管理工具(Apache开源项目)。它主要服务于基于Java平台的项目构建...原创 2018-11-22 00:04:42 · 430 阅读 · 0 评论 -
Spark2.2.0开发之maven配置
基于maven的spark开发配置。可根据项目情况,调节spark.version和scala.version即可。 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=&原创 2018-11-21 23:40:47 · 1875 阅读 · 0 评论 -
spark作业常见异常
1、java.lang.IllegalArgumentException: System memory … must be at least … Please use a larger heap … spark.driver.memory… 解决:可能跟driver.memory无关, 先设置应用程序的 VM options idea的设置路径在:Run -Edit Configurations-...原创 2018-11-21 15:59:52 · 295 阅读 · 0 评论 -
scala整理
Scala语言的特点: 基于JVM(可以重用类库) 简洁优雅 面向对象 + 函数式编程(FP) 函数式编程的数学基础是 : λ演算 函数式编程中,所有的数据都是不可变的,不同的函数之间通过数据流来交换信息,函数作为FP中的一等公民,享有跟数据一样的地位,可以作为参数传递给下一个函数,同时也可以作为返回值。 基础语法 Scala基础 程序文件的名称可以不与对象名称完全匹配; 程序从main()...原创 2018-11-20 18:35:09 · 151 阅读 · 0 评论 -
Spark Streaming知识总结
Spark Streaming原理 Spark Streaming 是基于spark的流式批处理引擎。其基本原理是:将实时输入数据流以时间片为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据。 Spark Streaming作业流程 客户端提交作业后启动Driver(Driver是spark作业的Master); 每个作业包含多个Executor,每个Executor以...原创 2018-12-05 20:07:33 · 978 阅读 · 1 评论