
Spark(PySpark)/Scala
文章平均质量分 64
瑞行AI
这个作者很懒,什么都没留下…
展开
-
Redis-哈希
简介REmote DIctionary Server(Redis)是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库,并提供多种语言的 API。Redis运行在内存中 但是可以持久化到磁盘,所以在对不同数据集进行高速读写时 需要权衡内存,因为数据量不能大于硬件内存。Redis的数据结构类型(Redis值value的类型)有5种:string(字符串),hash(哈希),list(列表),set(集合)及zset(原创 2021-06-15 19:50:03 · 950 阅读 · 0 评论 -
pyspark.ml特征变换模块
pyspark.ml 2.1ml模块的算子是基于dataframe构建的:(1)ML Pipeline APIs快速构建ML pipeline的API(2)pyspark.ml.param module(3)pyspark.ml.feature module(4)pyspark.ml.classification module(5)pyspark.ml.clustering modu...原创 2019-10-15 18:04:39 · 2581 阅读 · 0 评论 -
大数据平台几种架构对比
大数据领域的奠基石,毫无疑问,是google 2003年发表的Big Table、Google File System和Map Reduce三篇论文。大数据平台的发展:批处理、流计算、全面融合。批处理海量数据存储在HDFS,通过Map Reduce框架实现分布式计算。但“分布式存储+MR”的架构只能批处理 已经落到磁盘的静态数据,无法再数据采集传输等流动过程处理数据。数据处理延迟较大,影响数据的时效性应用。流计算在数据流产生及传递过程,流式地消费并处理数据。在每个“时间窗口”内的数据,被短暂缓存并原创 2019-08-17 20:31:50 · 490 阅读 · 0 评论 -
Spark submit案例
准备文件及脚本层级build用于存放scala编译后的类,src用于存放scala源码compilescala.sh是编译命令,run_wordcount.sh是以spark submit形式向集群提交任务命令$ lsbuild compilescala.sh run_wordcount.sh srcscala源码task1:词频统计$ cat ./src/wordcount...原创 2019-08-19 17:22:11 · 1653 阅读 · 0 评论 -
Scala文件操作
写文件用java中 的 I/O 类 (java.io.File),如果文件不存在,直接创建新文件write新内容;如果文件存在,会删去文件原有内容write新内容。import java.io._object file_learn { def main(args:Array[String]): Unit ={ val writer = new PrintWriter(new Fi...原创 2019-08-19 11:30:05 · 312 阅读 · 0 评论 -
Spark大数据计算引擎介绍
本文内容参考《Spark与Hadoop大数据分析》[美]文卡特·安卡姆 著;《大数据架构详解 从数据获取到深度学习》 朱洁 罗华霖 著。大数据生态的两个主要部分是Hadoop软件框架和Spark内存级计算引擎。Hadoop包含四个项目:Hadoop common,HDFS,YARN和MapReduce。 HDFS用于存储数据,HDFS文件被划分成区块分布在集群上; 用于管理集群资源(CPU和内存原创 2017-11-08 21:34:12 · 6808 阅读 · 0 评论 -
Anaconda3.4.2配置pyspark环境,win7无hadoop
(一)首先安装Anaconda3.4.2你也可以安装别的版本的,只要查好支持pyspark就行。Anaconda的各种版本下载在参考http://blog.youkuaiyun.com/cymy001/article/details/78107240 。下面按我自己配置环境时使用的Anaconda3.4.2为例进行说明。安装完Anaconda3.4.2之后,配置系统变量 D:\PYTHON35\Anacond原创 2017-11-03 00:47:53 · 12449 阅读 · 1 评论 -
Spark的基本结构及SparkSQL组件的基本用法
(1)有关sbt的理解参见: https://www.scala-sbt.org/0.13/docs/zh-cn/Getting-Started.html (2)基于Intellij IDEA的Scala环境搭建和学习教程,参考易百教程: https://www.yiibai.com/scala/ (3)Scala API文档(查看可用类型和方法): https://www.scala-l原创 2018-04-27 23:40:03 · 2666 阅读 · 0 评论 -
pyspark的使用和操作(基础整理)
Spark框架是使用Scala函数式编程语言开发的,支持Java编程,Java与Scala可以互操作。此外,Spark提供了Python编程接口,Spark使用Py4J实现Python与Java的互操作,从而可以使用Python编写Spark程序。Spark还提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。 有关Spark的基本架构介绍原创 2017-11-08 21:44:31 · 100146 阅读 · 7 评论