
spark
《一夜飘零》
这个作者很懒,什么都没留下…
展开
-
通过jsonRdd 来创建DataFram
什么是jsonRDD呢? 就是RDD里面是类型是string的,但是string里面是 json的格式 List namelist= Array.asList( “{‘name’:’jxh’,’age’:12}”, ...原创 2018-08-28 12:01:57 · 8229 阅读 · 0 评论 -
sparkSql 中的dataFram的使用 通过json文件创建DataFrame
如果是使用sparksql的话,我们需要创建SQLContext的上下问,可以传入conf对象,或者 sparkContext对象 读取json文件创建一个DataFram sqlContext.read.json(“json文件名”). 使用json文件创建datafram时他会直接解析json中的格式,将json中每一条记录里面的key作为了scheme,我们可以直接使用spa...原创 2018-08-28 12:02:28 · 8373 阅读 · 0 评论 -
Spark缓存策略
持久化的单位是partition,2是指partition的备份数,不是指持久化到几个节点上package com.bjsxt.spark.persistimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.storage.StorageLevel...原创 2018-08-28 12:04:18 · 8461 阅读 · 0 评论 -
Spark介绍
1.什么是Spark? Apache Spark是一个开源的集群计算系统,旨在让数据计算更快2.生态圈3.搞定所有 One stack rule them all!!!4.Spark相比Hadoop的历史 Spark:5年 Hadoop:10年5.Spark和Hadoop Spark为什么快? Hadoop为什么慢?6...原创 2018-08-29 08:22:57 · 7484 阅读 · 0 评论 -
SparkSQL
1.如何读取mysql中的数据?public class JDBCDataSource { public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("JDBCDataSource").setMaster("local"); JavaSp...原创 2018-08-29 08:22:40 · 7476 阅读 · 0 评论 -
mapPartitions--Transformation类算子
代码示例 mapPartitionsWithIndex–Transformation类算子 代码示例原创 2018-08-29 08:22:29 · 7679 阅读 · 0 评论