
Spark
sdut菜鸟
我得21个C币呢???
展开
-
【SparkSQL笔记】SarkSQL高并发读取数据库和存储数据到数据库(三)
1. SparkSql 高并发读取数据库SparkSql连接数据库读取数据给了三个API://Construct a DataFrame representing the database table accessible via JDBC URL url named table and connection properties.Dataset<Row> jdbc(Strin...原创 2019-12-08 16:40:42 · 1169 阅读 · 0 评论 -
【SparkSQL笔记】SparkSQL的Dataset操作大全(二)
SparkSQL的Dataset/DataFrame操作大全简介说明1. Spark程序中利用SparkSession对象提供的读取相关数据源的方法读取来自不同数据源的结构化数据,转化为Dataset(DataFrame),当然也可以将现成RDDs转化为Dataset(DataFrame),在转化为Dataset(DataFrame)的过程中,需自识别或指定Dataset(DataFrame...原创 2019-12-08 16:36:11 · 3794 阅读 · 0 评论 -
【SparkSQL笔记】SparkSQL的入门实践教程(一)
1.Spark SQL概述Spark SQL是用于处理结构化数据的模块。与Spark RDD不同的是,Spark SQL提供数据的结构信息(源数据)和性能更好,可以通过SQL和DataSet API与Spark SQL进行交互。2.Spark SQL编程入门Spark SQL模块的编程主入口点是SparkSession,SparkSession对象不仅为用户提供了创建DataFrame对象、...原创 2019-12-08 15:33:19 · 2936 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——flatMap、flatMapToDouble、flatMapToPair、flatMapValues(十六)
JavaPairRDD的flatMap方法讲解官方文档/** * Return a new RDD by first applying a function to all elements of this * RDD, and then flattening the results. */说明首先将一个函数应用于该函数的所有元素,从而返回一个新的RDD然后将结果展...原创 2019-03-22 16:03:42 · 4698 阅读 · 1 评论 -
【SparkAPI JAVA版】JavaPairRDD——coalesce(五)
JavaPairRDD的coalesce方法讲解官方文档说明/** * Return a new RDD that is reduced into `numPartitions` partitions. * This results in a narrow dependency, e.g. if you go from 1000 partitions * to 100 par...原创 2019-03-13 20:46:22 · 891 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——filter、 first(十五)
JavaPairRDD的filter方法讲解官方文档 /** * Return a new RDD containing only the elements that satisfy a predicate. */说明返回一个新的过滤后的RDD,过滤规则:只返回条件为true的数据返回的是map函数原型// javapublic JavaPairRDD<K,V...原创 2019-03-21 11:35:28 · 1711 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——distinct(十四)
JavaPairRDD的distinct方法讲解官方文档 /** * Return a new RDD containing the distinct elements in this RDD. */说明返回去重的一个新的RDD函数原型// javapublic JavaPairRDD<K,V> distinct()public JavaPairRDD&l...原创 2019-03-21 10:58:33 · 1915 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——countByValue、countByValueApprox(十三)
JavaPairRDD的countByValue方法讲解官方文档/** * Return the count of each unique value in this RDD as a map of (value, count) pairs. The final * combine step happens locally on the master, equivalent to ...原创 2019-03-20 17:20:14 · 459 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——cache、persist、unpersist、getStorageLevel(四)
说明这四个方法都和缓存有关,所以写在一块。JavaPairRDD的cache方法讲解官方文档说明Persist this RDD with the default storage level (MEMORY_ONLY).中文含义cache就是在内存中缓存数据,其实也是使用的persist。使用非序列化的方式将RDD的数据全部尝试持久化到内存中,cache()只是一个transform...原创 2019-03-12 11:51:37 · 1820 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——countByKey、countByKeyApprox(十二)
JavaPairRDD的countByKey方法讲解官方文档/** * Count the number of elements for each key, collecting the results to a local Map. * * @note This method should only be used if the resulting map is expec...原创 2019-03-20 16:57:29 · 454 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——countApprox、countApproxDistinct、countApproxDistinctByKey (十一)
JavaPairRDD的context方法讲解官方文档/** * Approximate version of count() that returns a potentially incomplete result * within a timeout, even if not all tasks have finished. * * The confidence i...原创 2019-03-20 16:22:40 · 356 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——context、count (十)
JavaPairRDD的context方法讲解函数原型// javapublic static SparkContext context()// scaladef context: SparkContext说明可以看得出来,这是一个静态方法,返回一个SparkContext。关于SparkContext是很重要的,想了解更多的可以看这篇文章spark[源码]-sparkConte...原创 2019-03-20 15:21:38 · 784 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——combineByKey(九)
JavaPairRDD的combineByKey方法讲解官方文档说明/** * Generic function to combine the elements for each key using a custom set of aggregation * functions. Turns a JavaPairRDD[(K, V)] into a result of type J...原创 2019-03-20 14:45:23 · 1092 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——collectAsMap(八)
JavaPairRDD的collectAsMap方法讲解官方文档说明/** * Return the key-value pairs in this RDD to the master as a Map. * * @note this method should only be used if the resulting data is expected to be smal...原创 2019-03-19 16:18:34 · 884 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——collect(七)
JavaPairRDD的collect方法讲解官方文档说明/** * Return an array that contains all of the elements in this RDD. * * @note this method should only be used if the resulting array is expected to be small, a...原创 2019-03-19 15:21:54 · 1042 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——cartesian(三)
JavaPairRDD的cartesian方法讲解官方文档说明Return the Cartesian product of this RDD and another one, that is, the RDD of all pairs of elements (a, b) where a is in `this` and b is in `other`.中文含义该函数返回的是Pair类...原创 2019-03-03 23:40:56 · 445 阅读 · 3 评论 -
【SparkAPI JAVA版】JavaPairRDD——aggregateByKey(二)
JavaPairRDD的aggregateByKey方法讲解官方文档说明Aggregate the values of each key, using given combine functions and a neutral"zero value". This function can return a different result type, U, than the type of...原创 2019-03-03 23:02:37 · 1050 阅读 · 0 评论 -
【SparkAPI JAVA版】JavaPairRDD——aggregate(一)
JavaPairRDD的aggregate方法讲解官方文档说明 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral &amp;quot;zero value&amp;quot;. This fu...原创 2019-02-26 01:16:52 · 1010 阅读 · 0 评论 -
【Spark】Windows运行本地spark程序——JAVA版本
说明为了运行spark程序我搭建了一个虚拟机的集群,但是我8G的内存被吃满了。。。别说跑个程序,就是基本运行都卡的不行。。。。。最后,我突然知道的本地也是可以运行spark的,,,,,唉 费虚拟机呢么大劲干嘛。。。。SO,如果你只是学习spark的基础知识,本地完全够用。还快速!!!!搭建Windows的spark环境下载hadoop 地址:http://archive.apache.o...原创 2019-02-23 23:58:33 · 2916 阅读 · 2 评论