大数据挖掘分析工具包安装指南
1. 大数据解决方案概述
在企业中实施大数据解决方案,需要选择最优的软件和硬件堆栈。由于行业内有数百种解决方案,这并非易事。制定大数据战略看似是管理层的事,但理解其中的细微差别对技术人员也至关重要。没有恰当、明确的战略和高层支持,IT 部门在提供成功解决方案方面会受到限制。而且,解决方案(包括软硬件堆栈)应能由现有 IT 资源充分管理和支持。大多数公司会发现,实施大数据项目有必要招聘新员工。因为这类实施需要评估业务需求、预算、资源等多种因素,根据规模和范围,通常需要数月到一年甚至更长的准备时间。
2. 分析工具包简介
如今有多种用于大规模数据分析的平台,大致可分为主要用于数据挖掘(如使用 NoSQL 平台分析大型数据集)和用于数据科学(即机器学习和预测分析)的平台。很多时候,解决方案兼具两者特点,有强大的底层数据存储管理平台,以及在此基础上构建的提供数据科学附加功能的解决方案。
2.1 分析工具包组件
分析工具包包含以下组件,不同组件在数据挖掘和机器学习方面各有作用,具体如下表所示:
| 软件/平台 | 用于数据挖掘 | 用于机器学习 |
| — | — | — |
| Hadoop | X | |
| Spark | X | X |
| Redis | X | |
| MongoDB | X | |
| 开源 R | X | X |
| Python (Anaconda) | X | X |
| Vowpal Wabbit | X | |
| LIBSVM, LIBLINEAR | X | |