基于Spark的分布式深度学习框架BigDL开源了!

BigDL是一款由Intel开源的Apache Spark上的分布式深度学习框架。它利用现有的Spark集群来执行深度学习任务,简化了从Hadoop加载大规模数据集的过程。测试显示,BigDL在Xeon服务器上的性能优于Caffe、Torch和TensorFlow等流行框架,并能与主流GPU相媲美。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导读Intel开源了基于Apache Spark的分布式深度学习框架BigDL,BigDL借助现有的Spark集群来运行深度学习计算,并简化存储在Hadoop中的大数据集的数据加载。

基于Spark的分布式深度学习框架BigDL开源了!基于Spark的分布式深度学习框架BigDL开源了!

在Xeon服务器上运行的测试结果表明,BigDL比其他开源框架Caffe、Torch和TensorFlow有显著的性能提升。BigDL速度可与主流GPU匹敌,而且能够扩展到数十个Xeon服务器,BigDL库支持Spark 1.5、1.6和2.0版本,并容许将深度学习嵌入在现有的Spark程序中,BigDL库中有把Spark RDDs转换为BigDL DataSet的方法,并且可以直接与Spark ML Pipelines一起使用。

对于模型训练,BigDL使用了在多个执行器中执行单个Spark任务的同步小批量SGD(Stochastic Gradient Descent),每个执行器运行一个多线程引擎并处理一部分微批次数据,在当前版本中,所有的训练和验证数据都存储到存储器中。
基于Spark的分布式深度学习框架BigDL开源了!基于Spark的分布式深度学习框架BigDL开源了!

BigDL使用Scala开发,并参考了Torch的模型;像Torch一样,它有一个使用Intel MKL库进行计算的Tensor类,Intel MKL(Math Kernel Library)是由一系列为计算优化过的小程序所组成的库,这些小程序从FFT(快速傅立叶变换)到矩阵乘法均有涉及,常用于深度学习模型训练,Module是另一个从Torch借鉴而来的概念,它的灵感来自Torch的nn package,Module代表单独的神经网络层、Table和Criterion。

BigDL提供了一个AWS EC2镜像和一些示例,比如使用卷积神经网络进行文本分类,还有图像分类以及如何将在Torch或Caffe中预训练过的模型加载到Spark中进行预测计算,来自社区的请求主要包括提供对Python的支持和MKL-DNN(MKL的深度学习扩展)。


本文地址:http://www.linuxprobe.com/base-spark-bigdl.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值