
spark scala
Jumay0612
一个热爱生活,热爱编程的程序媛,擅长数据处理和分析,目前在做机器学习和数据挖掘方向。喜欢leetcode,虽然脑子不灵光,一直保持锻炼中,防止生锈。。。
展开
-
Spark开发(一)-- 分区,分桶和数据重分区方法
分区:Partitioning:分区数据通常用于水平分配负载,这具有性能优势,并有助于以逻辑方式组织数据。分区表会更改持久化数据的结构,现在将创建反映此分区结构的子目录。这可以显着提高查询性能,但前提是分区方案反映了常见的过滤 。根据指定列进行分区存储,每个列值一个文件结构。df.write.partitionedBy(column*) .parquet("")分桶:Bucketing:Bucketing是另一种将数据集分解为更易于管理的部分的技术 . 根据提供的列,将整个数据.原创 2020-09-24 17:20:07 · 2570 阅读 · 0 评论 -
scala问题(一)sbt项目,sbt compile命令报错
因为是从同事那同步的代码,执行sbt命令报错Error wrapping InputStream in GZIPInputStream: java.util.zip.ZipException: Not in GZIP format at sbt.ErrorHandling$.translate(ErrorHandling.scala:10) at sbt.Wrap...原创 2020-01-08 09:24:00 · 1183 阅读 · 0 评论