
分布式
文章平均质量分 81
Shingle_
Done is better than perfect.
展开
-
Spark学习笔记(一)——Spark编程
Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。 Spark的前辈:MPI、MapReduce 特性:迭代式计算、交互式探索、内存缓存计算 Spark软件栈 Spark Core:任务调度、内存管理、错误恢复、与存储系统交互,弹性分布式数据集(resilient distributed dataset, RDD) Spark SQL:可与Hi...原创 2018-08-24 20:34:14 · 708 阅读 · 0 评论 -
分布式机器学习
三个特点 可扩展。 可扩展的意思是“投入更多的机器,能处理更大的数据”。而传统的并行计算要的是:“投入更多机器,数据大小不变,计算速度更快”。这是我认识中“大数据”和传统并行计算研究目标不同的地方。如果只是求速度快,那么multicore和GPU会比分布式机器学习的ROI更高。 有一个框架(比如MPI或者MapReduce或者自己设计的),支持fault recovery。Fault rec...原创 2018-09-02 21:55:50 · 5376 阅读 · 0 评论