spark
xujingpilot
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark中的遍历dataframe
def main(args: Array[String]) = { val spark = SparkSession.builder().appName("p2") //.master("local") .enableHiveSupport().getOrCreate() import spark.implicits._ val nowdate = Loca...原创 2020-05-07 20:14:00 · 2978 阅读 · 0 评论 -
SPARK基础4(DataFrame操作)
在上文《SPARK基础2(读入文件、转临时表、RDD与DataFrame)》中,我们简单介绍了spark中的DataFrame,我们知道了spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。在本文中我们主要介绍,DataFrame基本API常用操作。 查看数据 // 默认只显示20条 commodityDF.show() // 是否最多只显示20个字符,默认为true ...原创 2020-04-11 11:24:57 · 564 阅读 · 0 评论 -
Windows下安装spark-hadoop步骤
前言 本章将介绍如何在Windows下实现spark环境搭建。 本章概要 1、版本说明 2、环境准备: jdk配置; spark安装与配置; hadoop安装与配置; IDEA的安装与配置 版本说明 jdk:1.8 spark:2.4.5 hadoop:2.7.1 我把的安装软件的放到云盘了,链接:https://pan.baidu.com/s/1A7CJSYHmuin...原创 2020-02-15 00:54:32 · 2049 阅读 · 0 评论 -
SCALA下的GBDT与LR融合实现
我们直接使用的ML的包对GBDT/LR进行融合 首先我们需要导入的包如下所示: import org.apache.spark.sql. Row import scala.collection.mutable import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS import org.apache.spar...原创 2019-12-26 11:39:34 · 741 阅读 · 0 评论 -
spark基础3(RDD的特性与算子)
上文介绍了SPARK读入文件,RDD与DATAFRAME,本文主要介绍RDD的一些相关知识。 1、RDD 1.1 宽依赖与窄依赖 窄依赖:父RDD中,每个分区内的数据,都只会被子RDD中特定的分区所消费,为窄依赖: 宽依赖:父RDD中,分区内的数据,会被子RDD内多个分区消费,则为宽依赖: Spark的这种依赖关系设计,使其具有了天生的容错性,大大加快了Spark的执行速度。因为,RDD数据集通...原创 2019-11-20 20:16:07 · 649 阅读 · 0 评论 -
SPARK基础2(读入文件、转临时表、RDD与DataFrame)
上文介绍了spark的各种组件和入门,本文主要介绍spark读入文件以及数据格式(RDD/DataFrame) 1、读入文件与转临时表 1、json文件读取 val df = spark.read.json("E:/people.json") df.show()//将DataFrame的内容显示到页面 2、CSV文件读取(注意编码要UTF-8) df=spark.read.csv("E:/emp...原创 2019-11-19 16:14:50 · 3333 阅读 · 0 评论 -
SPARK基础1(spark基础介绍和入门)
什么是spark? 网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点: Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度 Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代MapReduce引擎 ...原创 2019-11-19 15:49:40 · 366 阅读 · 0 评论
分享