
spark
zhhz418418
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark neo4j 图中圈的发现算法
测试中,会更新到最后,预计一个月后会完工(2019-12-19)19 days passed, it will be completed soon! ☺(2020-01-06)23days passed, the programmingwork is finished! ☺(2020-01-10)28days passed, a bug has been fixed and ...原创 2019-12-19 18:40:55 · 948 阅读 · 0 评论 -
spark调优
问题:后面的优化问题遇到了瓶颈。原因如下: 1.观察到/tmp的使用率一度达到98%,如果再在某一个一个语句中增加一个分隔符设置,还是会出现磁盘空间不足问题; 2.在增加分隔符之前,成功的把主要结果数据存储到内存中,使用了序列化与压缩,查看其大小为9.8GB,全部数据将是这个两倍左右。 3.partition分布不均匀时候,会造成shuffle时消耗大量磁盘空原创 2016-02-01 11:31:51 · 372 阅读 · 0 评论 -
spark实践——处理表
import org.apache.spark.HashPartitionerimport org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.types._import org.原创 2016-02-01 11:10:28 · 892 阅读 · 0 评论 -
素数与溢出在spark的应用
case object EdgePartition2D extends PartitionStrategy { override def getPartition(src: VertexId, dst: VertexId, numParts: PartitionID): PartitionID = { val ceilSqrtNumParts: PartitionID = ma原创 2016-04-26 23:26:04 · 494 阅读 · 0 评论 -
Spark MLLib KMeans OOM 问题
1.问题描述: 对7万*3万的矩阵,对行数据KMeans聚类,刚开始执行,就报错:java.lang.OutOfMemoryError: Java heap space2.原因查找: 查看Spark MLLib KMeans源码中有关开辟堆栈空间的部分,在spark-1.6.1\mllib\src\main\scala\org\apache\spark\mllib\原创 2016-05-27 12:51:56 · 889 阅读 · 0 评论 -
如何读项目代码
你有个任务,需要用到某个开源项目;或者老大交代你一个事情,让你去了解某个东西。怎么下手呢?如何开始呢?先了解软件业务流程,弄清楚软件是干什么的,怎么干?先得理清楚业务逻辑是怎样的~ 俺一般是照着写一遍,把东西一个一个的移植到新工程中。 ----------------------------------------------------------------------转载 2016-10-18 14:06:20 · 3909 阅读 · 1 评论 -
java.lang.reflect.InvocationTargetException java.lang.NoClassDefFoundError:
maven项目debug的时候,加断点调试遇到下面的错误:java.lang.reflect.InvocationTargetExceptionjava.lang.NoClassDefFoundError: org/apache/spark/sql/types/DataType对应的断点调试图与断点进去的异常捕获两图:百度了一大圈,未找到相应的解决办法。因为这个ma原创 2016-10-28 11:52:45 · 2718 阅读 · 0 评论