
Spark
anoperA
啦啦啦
展开
-
Spark常见错误
scala> val lines = sc.textFile("README.md") scala> lines.count() org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://192.168.32.132:9000/user/walter/README.md at org.apa原创 2017-11-20 15:31:34 · 838 阅读 · 0 评论 -
Spark SQL(01)--Overview
Overview 1. Spark SQL用于处理结构化数据. 2. 可以使用SQL shell或者是Dataset api进行交互 3. 除了可以和已存在的文件进行查询, 还能结合Hive或者其他数据库连接(如JDBC和ODBC)Dataset 是一个分布式数据集合. 可以通过JVM Object转换为Dataset然后通过常见的RDD函数进行操作. DataFrame 一个有列名字的原创 2017-12-05 09:44:29 · 207 阅读 · 0 评论 -
Scala--Import and Package
//单个类的导入 import util.Random//导入两个类 import util.Random, util.Properties//导入util包中的两个类 import util.{Random, Properties}//设置导入类的别名 import util.{Random=>Bob, Properties=>Prop}//导入包中所有的类, 类似于java中的* import原创 2017-12-05 10:20:01 · 1009 阅读 · 0 评论 -
Spark SQL读取json文件
DataFrame是什么?是带有模式(Schema)的RDD, 类似于二维表, 有了Schema可以洞察更多的额信息.准备json数据, json数据需要是一行代表一个Row{"id":1, "name":"leo", "age":18} {"id":2, "name":"jack", "age":19} {"id":3, &q原创 2018-04-09 16:16:28 · 1611 阅读 · 0 评论 -
Spark Accumulator示例代码
package examples; import org.apache.spark.Accumulator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apach...原创 2018-04-09 17:49:40 · 314 阅读 · 0 评论 -
Spark中RDD flatMap的示例
package examples; import constant.Constants; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.ap...原创 2018-04-09 21:01:47 · 1074 阅读 · 0 评论