spark
qq_15009447
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
java.lang.NumberFormatException: For input string: “spu_price“
scala> rdd.filter(x=> x.split(",")(5)!=" ").map(x=>(x.split(",")(1),x.split(",")(5))).map(x=>(x._1,x._2.toDouble)).reduceByKey(_+_).collect.foreach(println) 分析: 出现报错先看懂啥意思,上面的意思说因为"spu_price" 类型转换异常。 刚开始想的是:切分之后拿到的数组的某个元素就是string啊,而scala的str原创 2021-06-12 16:34:58 · 1574 阅读 · 1 评论 -
spark 写入mysql 出现的连接问题
spark中dataFranme 的join操作出现的问题 val resu1: DataFrame = joined2.filter(($"register_time" + 7 * 86400000 )> $"signin_time") .groupBy("register_time").agg(countDistinct(registered("userUID")).as("num")) // resu1.show() val resu2: DataFrame = jo原创 2021-05-19 23:32:32 · 293 阅读 · 0 评论 -
spark重点总结
什么是RDD(Resilient Distributed Datasets) 1.RDD是将数据项拆分为多个分区的集合,存储在集群的工作节点上的内存和磁盘中,并执行正确的操作 RDD是用于数据转换的接口 2.RDD指向了存储在HDFS、Cassandra、HBase等、或缓存(内存、内存+磁盘、仅磁盘等),或在故障或缓存收回时重新计算其他RDD分区中的数据 3.分布式数据集 RDD是只读的、分区记录的集合,每个分区分布在集群的不同节点上 RDD并不存储真正的数据,只是对数据和操作的描述 4.弹性 RDD默认原创 2021-05-07 17:39:25 · 295 阅读 · 1 评论 -
scala spark 安装(local)
scala 正常解压 修改vi /etc/profile 配置环境变量 source /etc/profile 即可正常运行(命令:scala) spark 正常解压 修改 vi /etc/profile 配置环境变量 【选配SPARK_CONF_DIR=$SPARK_HOME/conf】 source /etc/profile 1. mv spark-env.sh.template spark-env.sh vi spark-env.sh export JAVA_HOME=/root/software/j原创 2021-05-06 17:36:04 · 134 阅读 · 0 评论
分享