
Spark
文章平均质量分 64
spark
_Zephyrus_
﹎ゞWhy insist, think about the beginning/╱°
展开
-
Trigger(触发器)
Trigger(触发器)流式查询的触发器定义了流式数据处理的时间, 流式查询根据触发器的不同, 可以是根据固定的批处理间隔进行微批处理查询, 也可以是连续的查询.(experimental 2.3 引入)原创 2022-10-23 09:46:57 · 687 阅读 · 0 评论 -
Structured Streaming输出分析结果
一旦定义了最终结果DataFrame / Dataset,剩下的就是开始流式计算。为此,必须使用返回的 DataStreamWriter Dataset.writeStream()。原创 2022-10-23 09:46:09 · 520 阅读 · 0 评论 -
Structured Streaming join 操作
join 操作Structured Streaming 支持 streaming DataSet/DataFrame 与静态的DataSet/DataFrame 进行 join, 也支持 streaming DataSet/DataFrame与另外一个streaming DataSet/DataFrame 进行 join.join 的结果也是持续不断的生成, 类似于前面学习的 streaming 的聚合结果.原创 2022-10-22 09:45:18 · 897 阅读 · 0 评论 -
基于 Watermark 处理延迟数据
watermark 在用于基于时间的状态聚合操作时, 该时间可以基于窗口, 也可以基于 event-time本身.window输出模式必须是append或update. 在输出模式是complete的时候(必须有聚合), 要求每次输出所有的聚合结果. 我们使用 watermark 的目的是丢弃一些过时聚合数据, 所以complete模式使用wartermark无效也无意义.在输出模式是append。原创 2022-10-22 09:43:54 · 1072 阅读 · 0 评论 -
操作 Structured Streaming
streaming DataFrames/Datasets各种操作.原创 2022-10-22 09:40:03 · 754 阅读 · 0 评论 -
Structured Streaming 编程模型
Structured Streaming 的核心思想是:把持续不断的流式数据当做一个不断追加的表这使得新的流式处理模型同批处理模型非常相像. 我们可以表示我们的流式计算类似于作用在静态数表上的标准批处理查询, spark 在一个无界表上以增量查询的方式来运行.原创 2022-10-22 09:32:14 · 350 阅读 · 0 评论 -
Spark Streaming优雅关闭
流式任务需要 7*24 小时执行,但是有时涉及到升级代码需要主动停止程序,但是分布式程序,没办法做到一个个进程去杀死,所有配置优雅的关闭就显得至关重要了。使用外部文件系统来控制内部程序关闭。原创 2022-10-22 09:21:50 · 391 阅读 · 0 评论 -
DStream 输出
输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作,那么这些 DStream 就都不会被求值。如果 StreamingContext 中没有设定输出操作,整个 context 就都不会启动。如果写在 foreach 则每个 RDD 中的每一条数据都创建,得不偿失;增加 foreachPartition,在分区创建(获取)。原创 2022-10-22 09:14:35 · 223 阅读 · 0 评论 -
DStream操作
DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。原创 2022-10-22 09:07:59 · 693 阅读 · 0 评论 -
Spark Streaming
需要继承 Receiver,并实现 onStart、onStop 方法来自定义数据源采集自定义数据采集器1. 继承Receiver,定义泛型, 传递参数2. 重写方法val message = "采集的数据为:" + new Random() . nextInt(10) . toString} } }原创 2022-10-22 08:33:04 · 105 阅读 · 0 评论 -
UDF自定义函数
可以通过 spark.udf 功能添加自定义函数,实现自定义功能。原创 2022-10-21 22:19:19 · 259 阅读 · 0 评论 -
RDD、DataFrame、DataSet 三者的关系
RDD、DataFrame、DataSet 三者的关系。原创 2022-10-21 22:06:26 · 161 阅读 · 0 评论 -
DataSet_
SparkSQL 能够自动将包含有 case 类的 RDD 转换成 DataSet,case 类定义了 table 的结构,case 类属性通过反射变成了表的列名。Case 类可以包含诸如 Seq 或者 Array 等复杂的结构。DataFrame 其实是 DataSet 的特例,所以它们之间是可以互相转换的。DataSet 是具有强类型的数据集合,需要提供对应的类型信息。原创 2022-10-21 22:02:09 · 116 阅读 · 0 评论 -
DataFrame_
Spark SQL 的 DataFrame API 允许我们使用 DataFrame 而不用必须去注册临时表或者生成 SQL 表达式。DataFrame API 既有 transformation 操作也有 action 操作。原创 2022-10-21 21:58:52 · 278 阅读 · 0 评论 -
DataFrame和DataSet
Row 是一个类型,跟 Car、Person 这些的类型一样,所有的。易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要。它提供了 RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及 Spark。➢DataSet 是 DataFrame API 的一个扩展,是 SparkSQL 最新的数据抽象。DataFrame 也是懒执行的,但性能上比 RDD 要高,主要原因:优化的执行计划,即查询计。的优化,最终达到大幅提升运行时效率的目标。原创 2022-10-21 21:23:08 · 525 阅读 · 0 评论 -
SparkSQL
Hive on Spark 是一个 Hive 的发展计划,该计划将 Spark 作为 Hive 的底层引擎之一,也就是。但是,随着 Spark 的发展,对于野心勃勃的 Spark 团队来说,Shark 对于 Hive 的太多依。常快,所以实际工作中,基本上采用的就是 SparkSQL。中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL-on-Hadoop。开发,团队将所有资源放 SparkSQL 项目上,至此,Shark 的发展画上了句话,但也因此发。原创 2022-10-21 21:20:46 · 261 阅读 · 0 评论 -
python + spark (一)
from pyspark import SparkContextsc = SparkContext()intRdd = sc.parallelize([2,3,1,4,5])intRdd.collect()[2, 3, 1, 4, 5]strRdd = sc.parallelize(['apple','orange','banana','apple'])strRdd.colle...原创 2019-01-17 16:23:17 · 1079 阅读 · 0 评论 -
python+spark(二)
RDD Persistence持久化spark RDD持久机制可以用于将需要重复运算的RDD存储在内存中,以便大幅提升运算效率Spark RDD持久化使用方法如下:RDD.persist(存储等级) ——可以指定存储等级,默认是MEMORY_ONLY,也就是存储在内存中RDD.unpersist()——取消持久化MEMORY_ONLY这是默认选项,存储RDD的方式是以Java对象反串...原创 2019-01-18 11:36:34 · 646 阅读 · 0 评论 -
MLlib机器学习库
MLlib代表机器学习库。MLlib数据准备:特征提取、变换、选择、分类特征的散列和一些自然语言处理方法机器学习算法:实现了一些流行和高级的回归、分类和聚类算法使用程序:统计方法,如描述性统计、卡方检验、线性代数(系数稠密矩阵和向量)和模型评估方法加载和转换数据import pyspark.sql.types as typfrom pyspark.sql import Spark...原创 2019-02-14 17:06:46 · 318 阅读 · 0 评论 -
ML包
ML包概述该库公开了三个抽象类:转换器、评估器和管道。转换器通常通过一个新列附加到DataFrame来转换数据。当转换器的抽象类派生时,每个新的转换器类需要实现.transform()方法。该方法要求传递一个要被转换的DataFrame,该参数通常是第一个也是唯一的一个强制性参数。在pyspark.ml.feature中提供了许多转换器Binarizer:根据指定的阈值将连续变量转换...原创 2019-02-15 11:54:44 · 779 阅读 · 1 评论 -
tensorframes
https://pypi.org/project/tensorframes/原创 2019-02-21 16:05:43 · 233 阅读 · 0 评论 -
Apache Spark
SparkApache Spark是一个强大的开源处理引擎。是快速、易于使用的框架,允许你解决各种复杂的数据问题,无论是半结构化、结构化、流式或机器学习、数据科学。它以成为大数据方面最大的开源社区之一。Apache SparkApache Spark是一个开源的、强大的分布式查询和处理引擎。可以轻松的训练和部署复杂的统计模型。Java、Scala、Python、R和SQL都可以访问Spark...原创 2019-02-13 15:00:49 · 258 阅读 · 0 评论 -
SparkContext
from pyspark import SparkContextsc = SparkContext()data = sc.parallelize([('amber',22),('alfred',23),('skye',4),('albert',12),('amber',9)])dataParallelCollectionRDD[0] at parallelize at PythonR...原创 2019-02-13 15:02:43 · 839 阅读 · 0 评论 -
ML 其它功能(一)
特征提取NLP相关特征提取NGram模型采用标记文本的列表,并生成单词对(n-gram)from pyspark.sql import SparkSessionimport pyspark.ml.feature as ftimport pyspark.sql.functions as funcimport pyspark.ml.clustering as clusfrom pyspa...原创 2019-02-19 11:53:49 · 221 阅读 · 0 评论 -
ML 其他功能(二)
分类使用RandomForestClassfier来模拟生存机会from pyspark.sql import SparkSessionimport pyspark.sql.functions as funcfrom pyspark.ml import Pipelineimport pyspark.sql.types as typimport pyspark.ml.classifica...原创 2019-02-19 11:55:08 · 229 阅读 · 0 评论 -
windows下spark环境搭建
安装包spark : http://spark.apache.org/downloads.htmlhadoop : http://hadoop.apache.org/releases.htmljdk: http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.htmlhadoop-commin : ht...原创 2019-02-28 17:10:36 · 200 阅读 · 0 评论 -
tensorframes
在我们 使用tensorflow 和 spark 结合的时候 ,肯定非常激动,关键 我们打算 使用哪一种语言 建构我们的机器学习代码,最主要的的有四种 ,python java scala R,当然 python 是门槛较低的。使用java scala 一般人不一定能hold 的住,所以我们首先 讲 python版的工具链首先 假设你已经有了一台 mac pro安装了 python 3...转载 2019-02-19 16:56:03 · 460 阅读 · 0 评论 -
执行pyspark报错env: ‘python’: No such file or directory问题
前提条件:Ubuntu18.04环境安装好Spark2.x,并配置好环境变量安装好python3问题:执行pyspark脚本报错原因:因为没有配置Spark python的环境变量解决办法:添加python相关环境变量注意:py4j-0.10.7-src.zip要到$SPARK_HOME/python/lib目录查看是否是这个名称。不同版本的py4j的名称会有差别保存后,让环境变量生效再次输入pyspark,成功如下:查看Web监控页面:浏览器输入ip:4040......原创 2019-05-15 09:37:32 · 3168 阅读 · 3 评论 -
基于docker的spark-hadoop分布式集群搭建:pyspark
基于docker的spark-hadoop分布式集群之一: 环境搭建一、软件准备1、基础docker镜像:ubuntu,目前最新的版本是18下载hadoop安装包 (wget http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz)下载spark安装包 (wget http://...原创 2019-05-23 15:30:45 · 2497 阅读 · 0 评论 -
Linux下Hadoop2
Hadoop2.7.7 + Spark2.2搭建安装虚拟机https://www.cr173.com/soft/68480.html安装镜像http://releases.ubuntu.com/xenial/安装默认配置,使用NAT模式网络配置Linux环境属性,直接使用root用户#设置root用户密码sudo passwd root#关闭防火墙ufw disable#卸载...原创 2019-01-02 11:40:54 · 201 阅读 · 0 评论