6、数据科学家的工具包

数据科学家的工具包

1. 数据科学家工具概述

数据科学家所需的工具和软件众说纷纭。有人认为至少需要一个云端虚拟机,配备“专家”认为必要的所有工具;也有人觉得只需一种编程语言(通常是 Python)和一台个人电脑即可。但实际情况并非如此简单,数据科学家的工具包涵盖了从专业软件、编程语言到相关数据科学包等众多内容。对你而言,哪些工具是必需的,取决于两个因素:一是你愿意投入的资金,二是你要解决问题的复杂程度。下面将为你介绍各种选择,由你自己决定最适合的工具。

2. 数据库平台

数据需要有存储的地方,它不一定总是像 Kaggle(一个机器学习竞赛网站)上那样整齐的 .csv 文件,更多时候数据存于数据库中。即便数据最初不在数据库里,在数据工程阶段,为了便于处理,你也可能想把它存入数据库,因为同一数据在不同数据科学项目中重复使用很常见。如果数据分散,你可以将其整理后存入数据库,以便轻松访问并创建项目所需的数据集。

如今数据库形式多样,大致可分为三类:基于 SQL 的数据库、NoSQL 数据库和基于图的数据库。

2.1 基于 SQL 的数据库

基于 SQL 的数据库使用结构化查询语言(SQL)的某种变体,这是一种用于与传统数据库交互、执行查询的基础语言。这类数据库具有结构化特点,每个表有固定的字段集,内容以表的形式组织,通过特殊字段(键)连接。通常使用数据库管理系统(DBMS)来管理,不过也有各种编程语言的 API 可供使用。

这种数据库适合存储来自网页表单、软件和电子表格的数据,在数据存储和检索的常规应用中表现出色,因此在企业中很受欢迎。尽管它并非数据科学应用的最佳选择,但在项目中至少会遇到部分使用这类

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值