Spark
Spark
x²+(y-√³x²)²=1
你的穷途末路,却带给其他人未知的过往。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark中选取DataFrame多列的三种方式
val df = sc.parallelize(Seq( (0,"cat26",30.9), (1,"cat67",28.5), (2,"cat56",39.6), (3,"cat8",35.6))).toDF("Hour", "Category", "Value")//或者从文件读取成Listval cols = List("Hour", "Value")scala> df.select(cols.head, cols.tail: _*).show+----+----原创 2022-06-03 22:42:29 · 1958 阅读 · 0 评论 -
Spark报错:spark.debug.maxtostringfields
https://blog.youkuaiyun.com/u013084266/article/details/103610872原创 2021-09-09 20:08:40 · 1211 阅读 · 0 评论 -
Spark之takeOrdered,取前几个数据
takeOrdered 案例package com.sgg.sparkCoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{HashPartitioner, SparkConf, SparkContext}object SparkTrans012_takeOrdered { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkCo原创 2021-08-20 18:22:45 · 267 阅读 · 0 评论 -
Spark读取文件,报错java.lang.ArrayIndexOutOfBoundsException
背景:在 Spark 解析文件的时候,忽然报错 java.lang.ArrayIndexOutOfBoundsException。排查问题,也没发现有任何的异常。最后发现文件中,有一行数据的最后一个字段是空的,没有数据的,如下所示:95009,梦圆圆,女,18,MA95015,王君,男,18,MA95016,,男,18,MA95017,,男,18,id 为 95017 的这一行数据中,最后一个字段是空解决方式:在调用 split API 的时候,添加第二个参数为 -1(只要是小于0的数即原创 2021-01-26 23:26:40 · 2595 阅读 · 0 评论 -
在Idea里面远程提交spark任务到Spark集群(StandAlone模式),调试代码
解决使用Navicat 打开 Linux远程连接mysql很慢的方法1.在linux 下暂时关闭 mysql服务service mysql stop2.找到目录 /usr 下的 my.cnf 在最后一行加入 skip-name-resolve 保存3.再次启动mysqlservice mysql start原创 2021-01-26 23:05:28 · 5038 阅读 · 1 评论 -
SparkStreaming之mapWithState和updateStateByKey的区别
https://www.cnblogs.com/icecola/p/11145957.htmlmapWithState是1.6版本之后推出的必须设置checkpoint来储存历史数据mapWithState和updateStateByKey的区别 : 他们类似,都是有状态DStream操作, 区别在于,updateStateByKey是输出增量数据,随着时间的增加, 输出的数据越来越多,这样会影响计算的效率, 对CPU和内存压力较大.而mapWithState则输出本批次数据,但是也含有状态更新.c原创 2021-01-07 10:18:07 · 437 阅读 · 0 评论 -
SparkStreaming报错: Only one SparkContext may be running in this JVM (see SPARK-2243)
报错信息:Exception in thread "main" org.apache.spark.SparkException: Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true. The currently running SparkContext was created at:原创 2020-11-18 00:44:20 · 1867 阅读 · 0 评论
分享