一个合格的数据科学家必须有称手的工具,不能每次都赤手空拳的去处理一堆数据。一个好的数据科学家应该有自己的工具箱,遇到了不同的问题时候,知道应该用工具箱内的那个工具才合适。
最后一个部分,介绍了原作者推荐的工具箱,我们来一起看一下是否有什么是我们比较熟悉的,有什么是很陌生的。
- Toolbox
- MS Excel w/ Analysis ToolPak 微软的excel(简单实用,堪称数据处理中的好折凳^_^不过要用好也比较难)
- Java, Python java python 2种常见语言
- R, R-Studio, Rattle R,及其R相关的包
- Weka, Knime, RapidMiner 三种数据处理工具
- Hadoop Dist of Choice 选择hadoop的哪个发行版
- Spark, Storm hadoop相关的实时处理框架
- Flume, Scribe, Chukwa 日志处理系统
- Nutch, Talend, Scraperwiki 搜索引擎,中间件,多种数据源处理
- Webscraper, Flume, Sqoop (Flume Dup?) 网页抓取,日志处理
- tm, RWeka, NLTK R相关的自然语言处理,python相关的自然语言处理
- RHIPE R与hadoop相关的开发环境
- D3.js, ggplot2, Shiny 可视化相关
- IBM Languageware IBM的自然语言处理
- Cassandra, MongoDB 2种NoSql数据库