
Spark
dlphay
e-mail:740595707@qq.com
展开
-
spark实践
最权威的官网:http://spark.apache.org/--master // master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local--deploy-mode // 在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client--class // 应用程序的主类,仅针对 java ...原创 2019-08-03 22:47:37 · 73660 阅读 · 0 评论 -
Spark - 初理解
计算引擎Spark是什么?专为大规模数据处理的快速通用的计算引擎(基于MapReduce算法实现的分布式计算)。Spark特性高级 API,可以更多精力专注于应用所要做的计算本身。Spark 提供了80多个高级运算符。 快,支持复杂算法和交互式计算。内存计算下:Spark比Hadoop快100倍。 通用引擎,运算:SQL 查询、文本处理、机器学习等。大量的库无缝组合使用:Sp...原创 2019-07-26 14:58:48 · 189 阅读 · 0 评论 -
Hadoop+Spark集群配置
重要参考文献:http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/准备工作操作系统:Ubuntu-14.04.1-desktop-amd64 Hadoop 版本:hadoop-2.7.2:包含文件管理系统 HDFS 和任务调度系统 YARN Spark 版本:spark-1.6.1-bin-without-hado...原创 2019-07-28 17:24:44 · 558 阅读 · 0 评论 -
Spark-SQL-Java编程
认识:最核心的编程抽象就是DataFrame。原理:将Spark SQL 转化为 RDD, 然后提交到集群执行。SparkSession:统一的切入点,实质上是SQLContext和HiveContext的组合。允许用户通过它调用 DataFrame 和 Dataset 相关 API 来编写程序DataFrame:以RDD为基础的分布式数据集,二维表格。schemaRDD,比RDD多了...原创 2019-08-07 17:34:49 · 467 阅读 · 0 评论 -
Spark-SQL-Scala编程
使用Scala语言编程例程:方式一:通过 case class 创建 DataFrames(反射)//定义case class,相当于表结构case class People(var name:String,var age:Int)object TestDataFrame1 { def main(args: Array[String]): Unit = { val con...原创 2019-08-07 18:55:08 · 375 阅读 · 0 评论