
Spark
想做架构师
这个作者很懒,什么都没留下…
展开
-
Spark WordCount
1.lamabda编写spark package cn.edu360.spark;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api....原创 2018-10-01 21:22:59 · 240 阅读 · 0 评论 -
Spark TopN
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://原创 2018-10-04 13:00:38 · 456 阅读 · 0 评论 -
Spark 序列化问题
spark中在driver端实例化的类必须继承Serializable,而executor端的类没有此要求(driver端需要通过网络发到executor中)。但在excuter中进行实例化会造成内存浪费(一个task实例化一次)。 解决1:将类继承接口写在driver端中。 ( 有不能实现序列化的类) 解决2:写成Object类型,在driver端获取 ,在execut...原创 2018-10-08 15:15:30 · 598 阅读 · 0 评论 -
SparkSQL 1.x写法
1.创建SparkContext2.创建SQLContext3.创建RDD4.创建一个类,并定义类的成员变量5.整理数据并关联class6.将RDD转换成DataFrame(导入隐式转换)7.将DataFrame注册成临时表8.书写SQL(Transformation)9.执行Actionpackage cn.edu360.day6import org.apache.sp...原创 2018-10-08 16:16:21 · 259 阅读 · 0 评论 -
SparkSQL WordCount
import org.apache.spark.sqlimport org.apache.spark.sql.{Dataset, SparkSession}object SparkSQL2 { //常规写法// def main(args: Array[String]): Unit = {// val spark = SparkSession.builder().app...原创 2018-10-08 17:29:37 · 1749 阅读 · 0 评论 -
Spark ip归属地查询
sql查询方式import org.apache.spark.sql.SparkSessionobject IPLocationSQL { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("ipSql").master("local[*]").getOrCre...原创 2018-10-09 09:41:07 · 537 阅读 · 0 评论 -
Spark 几何平均数 自定义函数UDAF
package cn.edu360.day7import java.lang.Longimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{StructField, _}impo...原创 2018-10-09 10:03:42 · 331 阅读 · 0 评论 -
Spark 操作jdbc csv json parquet格式文件
1.jdbc文件以及保存到各种格式package cn.edu360.day7import java.util.Propertiesimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}/** * Created by ls on 2018/10/1. */object JdbcDataSo...原创 2018-10-09 10:39:07 · 501 阅读 · 0 评论