
Spark
yield-bytes
Java高级后端、大数据开发、Python高级开发、数据分析与挖掘
展开
-
分析Kafka offset管理与Spark Streaming背压速率(待更)
1、背压问题涉及到自动调整ss消费消息的速率,以便让计算处理能力跟接收消息的能力匹配2、手动管理offset的文章为何要管理offset三种场合都需要保证重启ss进程后,能够接着上次消费的位置进行消费...原创 2020-03-19 22:21:45 · 631 阅读 · 0 评论 -
基于PySpark整合Spark Streaming与Kafka
本文内容主要给出基于PySpark程序,整合Spark Streaming和Kafka,实现实时消费和处理topic消息,为Python开发大数据实时计算项目提供基本参考。(后续将陆续给出基于Scala开发大数据实时计算项目的文章)1 程序环境准备:虚拟机A:启动单实例kafka服务虚拟机B:运行PySpark程序在VM A,程序环境要求安装jdk1.8以上以及与kafka匹配版本的s...原创 2020-03-06 23:43:11 · 9044 阅读 · 9 评论 -
Spark DataFrame、Spark SQL、Spark Streaming入门教程
文章目录前言1、RDD、Spark DataFrame、Spark SQL、Spark Streaming2、Spark DataFrame2.1 创建基本的Spark DataFrame2.2 从各类数据源创建Spark DataFrame2.3 Spark DataFrame持久化数据2.4 Dataframe常见的API3、Spark SQL4、Spark Streaming实时计算TCP...原创 2020-01-14 21:50:59 · 2185 阅读 · 0 评论 -
基于PySpark和ALS算法实现基本的电影推荐流程
2、读数据多个api基本常用读取数据的apisc.pickleFile() # <class 'pyspark.rdd.RDD'>sc.textFile() # <class 'pyspark.rdd.RDD'>spark.read.json() # <class 'pyspark.sql.dataframe.DataFrame'>spark.read...原创 2020-01-11 10:23:19 · 5070 阅读 · 0 评论 -
深入理解RDD弹性分布式数据集
文章目录前言1、RDD简介2、创建RDD3、宽依赖和窄依赖4、通过RDD的依赖关系构建DAG计算图5、RDD 持久化6、RDD的checkpointing机制7、Spark分区与RDD分区(待更新)前言 在前面的博客《深入理解Spark》 深入探讨了Spark架构原理内容,该文提到Stage的划分,为什么要做Stage划分?是为了得到更小的Task计算单元,分发给Executor的线程运行,...原创 2019-12-26 19:37:19 · 1175 阅读 · 0 评论 -
深入理解Spark
在前面博客文章里,已经把大数据实时分析项目在spark组件之前的各个组件原理、部署和测试都给出相关讨论,接下来是项目最核心的内容:实时计算部分,因为项目将使用spark streaming做微批计算(准实时计算),因此接下的文章内容将深入spark以及spark streaming架构原理,为后面实际计算编程做铺垫。1、Spark 是什么? Spark是一种分布式的并行计算框架,什么是计...原创 2019-12-22 16:31:16 · 1124 阅读 · 0 评论 -
基于YARN HA集群的Spark HA集群
文章目录前言1、yarn HA模式的配置1.1 完整 yarn-site.xml配置1.2 mapred-site.xml的配置文件说明1.3 yarn HA的启动2、spark HA 集群及其基本测试2.1 修改spark配置2.2 启动spark集群3、spark on yarn3.1 spark集群跑在yarn上的两种方式3.2 测试spark on yarn前言 在前面的《基于h...原创 2019-12-08 18:06:08 · 1253 阅读 · 0 评论 -
基于hadoop3.1.2分布式平台上部署spark HA集群
基于hadoop3.1.2分布式平台上部署spark集群在此文章《基于Centos7.5完整部署分布式Hadoop3.1.2》里,已经给出详细的hadoop和yarn的部署过程,既然已经解决了大数据开发中“hdfs”的数据存储部署,那么就要考虑如何基于底层分布式文件基础上运行计算框架,以便进行更高层次的应用开发。在本篇文章中,将给出完整部署spark计算框架集群。1、spark版本(仅列出sp...原创 2019-10-13 22:36:48 · 1643 阅读 · 0 评论