数据科学家的工具包
1. 数据科学家工具概述
数据科学家所需的工具和软件众说纷纭。有人认为至少需要一个云端虚拟机,配备“专家”认为必要的所有工具;也有人觉得只需一种编程语言(通常是 Python)和一台个人电脑即可。但实际情况并非如此简单,数据科学家的工具包涵盖了从专业软件、编程语言到相关数据科学包等众多内容。对你而言,哪些工具是必需的,取决于两个因素:一是你愿意投入的资金,二是你要解决问题的复杂程度。下面将为你介绍各种选择,由你自己决定最适合的工具。
2. 数据库平台
数据需要有存储的地方,它不一定总是像 Kaggle(一个机器学习竞赛网站)上那样整齐的 .csv 文件,更多时候数据存于数据库中。即便数据最初不在数据库里,在数据工程阶段,为了便于处理,你也可能想把它存入数据库,因为同一数据在不同数据科学项目中重复使用很常见。如果数据分散,你可以将其整理后存入数据库,以便轻松访问并创建项目所需的数据集。
如今数据库形式多样,大致可分为三类:基于 SQL 的数据库、NoSQL 数据库和基于图的数据库。
2.1 基于 SQL 的数据库
基于 SQL 的数据库使用结构化查询语言(SQL)的某种变体,这是一种用于与传统数据库交互、执行查询的基础语言。这类数据库具有结构化特点,每个表有固定的字段集,内容以表的形式组织,通过特殊字段(键)连接。通常使用数据库管理系统(DBMS)来管理,不过也有各种编程语言的 API 可供使用。
这种数据库适合存储来自网页表单、软件和电子表格的数据,在数据存储和检索的常规应用中表现出色,因此在企业中很受欢迎。尽管它并非数据科学应用的最佳选择,但在项目中至少会遇到部分使用这类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



