企业数据科学:机器学习与人工智能综合指南
1. 数据科学解决方案的发展
在过去4 - 5年里,数据科学解决方案迅速成熟,这与NoSQL、Hadoop等数据科学领域的发展类似。许多早期数据库系统已经融入了数据科学的关键特性,如机器学习等。这里主要介绍用于机器学习和/或人工智能的解决方案,而非数据管理方面的内容。如今,大数据产品和数据科学产品的界限变得模糊,原本用于处理大数据的产品融入了数据科学的关键特性,反之亦然。
2. 编程语言与工具
- R编程语言 :最初为统计编程设计,起源于新西兰大学的一个项目,是John Chambers在贝尔实验室开发的S编程语言的变体。过去7 - 8年,它已发展成为成熟的多面语言,支持机器学习、高性能计算、可视化、计量经济学、时间序列分析等多个相关领域。商业版R由Revolution Analytics提供,2015年更名为Microsoft R Open(开源版)和Microsoft R Server(商业版),且适用于Linux和Mac OS。R中的流行机器学习包包括e1071、randomForest、gbm、kernlab、arules等,可在https://cran.r-project.org/web/views/MachineLearning.html查看。caret包可作为各种算法包的包装器,提供统一接口。此外,R还通过multicore、doMC等包支持多核编程,相关信息可在https://cran.r-project.org/web/views/HighPerformanceComputing.html查看。
- Python