
Spark
Spark
大漠孤烟BLOG
这个作者很懒,什么都没留下…
展开
-
Spark 核心概念一
Spark 核心概念图:Driver:是一个spark 作业运行的启动的一个Driver进程,作业的主进程,负责作业解析、生成stage,并调度Task到Executor上。SparkContext: 程序运行的核心,有DAGScheduler 划分每个阶段,底层TaskScheduler 划分给个阶段的具体任务。SchedulerBackend 管理整个集群中为正在运行的程序分...原创 2020-01-07 22:03:50 · 148 阅读 · 0 评论 -
Spark sql hive 整合问题
1、Exception in thread "main" org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'portrait' not found; at org.apache.spark.sql.catalyst.catalog.SessionCatalog.org$apache$spark...原创 2020-01-07 10:53:30 · 602 阅读 · 0 评论 -
Spark Mllib 流水笔记一 统计
1、范数是具有“长度”概念的函数。在向量空间内,为所有的向量的赋予非零的增长度或者大小。不同的范数,所求的向量的长度或者大小是不同的。以上内容来自。https://blog.youkuaiyun.com/lioncv/article/details/430163332、spark version <dependency> <groupId>...原创 2019-12-17 21:22:11 · 125 阅读 · 0 评论 -
spark 流水笔记 Row StructType ?
1、StructType ? 可以指定sql 表package testimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types._object StructTypeDemo { def main(args: Array[String]): Unit = { val...原创 2019-12-12 21:01:45 · 415 阅读 · 0 评论 -
Spark 错误集锦
1、Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection答:未添加mysql.jar 包。2、Parquet 文件读取hive 结果和 spark sql的结果不一致问题?答: spark sql 默认采用自己的parquet 的文件解析方...原创 2019-11-09 21:07:19 · 187 阅读 · 0 评论