目前机器学习可以说是百花齐放阶段,不过如果要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议,仅供参考。
首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的产品中,还是仅仅是做研究学习用?
1. 生产环境中机器学习平台的搭建
如果平台是要用于生产环境的话,接着有一个问题,就是对产品需要分析的数据量的估计,如果数据量很大,那么需要选择一个大数据平台。否则的话只需要一个单机版的平台就可以了。
1.1 生产环境中机器学习大数据平台的搭建
生产环境里面大数据平台,目前最主流的就是Spark平台,加上辅助的分布式数据处理容器,比如YARN,或者Mesos.如果需要实时的收集在线数据,那么就加上Kafka。简言之,一个通用的大数据处理平台就是集成Spark + YARN(Mesos) + Kafka. 我现在做的产品项目都是基于Spark + YARN+ Kafka的,目前来看,这个平台选择基本上是主流的方向。
当然,有人会说,这么多开源软件,一起集成起来好麻烦,大坑肯定不少,有没有一个通用的平台,可以包括类似Spark + YARN+ Kafka的大数据平台功能呢?目前据我所知,做的比较好的有CDAP(http://cdap.io)。它对Spark, YARN, Kafka还有一些主流的开源数据处理软件进行了集成,开发者只需要在它上面封装的一层API上做二次开发就可以了。这应该是一个不错的点子,不过目前还没有看到商用的成功案例,所以我们在构架选型的时候就没有考虑CDAP。
因此,围绕Spark + YARN+ Ka
本文探讨了机器学习平台的选择,区分了生产环境与研究环境的需求。在生产环境中,针对大数据和小数据量分别推荐了Spark + YARN + Kafka组合和Spark单机版。对于研究环境,建议使用scikit-learn进行快速原型开发和验证,同时也提到了R Studio作为另一种选择。
订阅专栏 解锁全文
1609

被折叠的 条评论
为什么被折叠?



