文章目录
1.背景与概述
数据科学家一天,总是要被迫拿出大量的时间“享受”咖啡。这是因为在传统数据科学领域其的主要工作集中在数据处理过程中,由于算力的有限,数据分析往往都是漫长的等待过程。图1中,左侧展示的是基于CPU的数据准备和数据分析流程,其中绿色部分代表数据分析过程,数据科学家们只能在这段漫长的时间里一边无奈地喝着咖啡,一边等待结果。右侧是基于GPU的数据科学加速平台,数据科学家们摸鱼的时间变少了!
在数据分析、传统机器学习等领域常用到的工具和框架如Numpy、Panda、 SciPy、Matplotlib、Scikit-learn、Spark MLlib等都是基于CPU平台的。这些框架一般采用的加速方式主要是英特尔数学核心函数库(MKL)的优化和分布式处理。即使有一些基于GPU的加速方案(XGboost GPU、h2o4GPU )也是基于异构计算的思想,数据需要在内存和显存之间反复的来回拷贝,这大大降低了系统整体的加速效果。
18年底“核弹厂”NVIDIA推出的一款针对大规模数据分析和机器学习的开源GPU加速平台。它允许数据科学家们使用GPU来加速数据分析、机器学习和数据可视化工作流,与仅支持CPU的系统相比,其运算速度提升了50倍左右。通过运用NVIDIA开源GPU加速平台,数据科学家们可以和咖啡说拜拜了。
RAPIDS是一款针对数据科学和机器学习的GPU加速框架。RAPIDS主要关注数据科学中的数据预处理任务,同时它也集成了各种机器学习算法