数据科学入门-初学者指南

过去二十年,您并非与世隔绝,所以您可能认为自己或多或少知道数据科学是什么。您可能希望简要了解一下数据科学的涵义,了解开始学习数据科学和找工作所需的条件。
以下是本文将为您提供的重点内容:
数据科学的要点是:数据进来,见解出来。数据科学家的工作是在每个阶段管理从数据到见解的管道。
从事数据科学工作需要哪些工具、技术和技能。
数据科学作为一种职业的总体概况。
如果这听起来就像您正在寻找的东西,那就让我们深入研究一下吧。
-
什么是数据科学?
正如我之前所说,数据科学最好概括为从数据到洞察的流程。作为一名数据科学家,无论你在哪家公司,你都会做这样的任务:
-
提取数据 -
清洁或篡改数据 -
分析数据 -
识别模式或趋势 -
在数据基础上建立预测和统计模型 -
数据可视化与交流
简而言之,您正在解决问题、做出预测、优化流程并指导战略决策。
由于很少有公司能够准确掌握数据科学家的具体职责,因此您可能还会承担其他职责。一些雇主希望数据科学家在其职责中增加信息安全或网络安全职责。其他雇主可能希望数据科学家具备云计算、数据库管理、数据工程或软件开发方面的专业知识。准备好身兼数职。
这份工作之所以重要,并不是因为《哈佛商业评论》称其为 21 世纪最性感的工作,而是因为数据量正在不断增加,而很少有人知道如何将数据转化为洞察力。作为一名数据科学家,你会只见树木不见森林。
2010 年至 2020 年全球创建、捕获、复制和消费的数据/信息量,以及 2021 年至 2025 年的预测

来源: https://www.statista.com/statistics/871513/worldwide-data-created/
-
数据科学中的关键概念
现在你已经有了大致的了解。让我们来看看数据科学中的一些关键概念。如果你能想象出数据到洞察的流程,我会指出每个关键概念发挥作用的地方。
2.1 数据处理
在该管道的开始阶段,您得到的是大量质量参差不齐的数据。有一项著名的(但 不正确的 )统计数据称,数据科学家将 80% 的时间用于清理数据。虽然实际时间可能没有这么长,但构建漏斗和处理数据是这项工作的重要组成部分。
假设你是一家电子商务公司的数据科学家。在那里,数据处理可能涉及清理和转换客户交易数据、合并和协调来自不同来源(例如网站分析和客户关系管理 (CRM) 系统)的数据,以及处理缺失或不一致的数据。
您可能需要标准化格式、删除重复项或 NaN,并处理异常值或错误条目。此过程可确保数据准确、一致且可供分析。
2.2 数据探索和可视化
一旦数据被整理好并提交,你就可以开始查看它了。你可能认为数据科学家会立即开始对数据使用统计模型,但事实是模型太多了。首先,你需要掌握你所拥有的数据类型。然后你就可以寻找重要的见解和预测。
例如,如果您是 GitHub 的数据科学家,数据探索将涉及分析平台上的用户活动和参与度。您可以查看提交、拉取请求和问题的数量以及用户互动和协作等指标。通过探索这些数据,您可以了解用户如何与平台互动,识别热门存储库,并发现软件开发实践的趋势。
而且由于大多数人能更好地理解图片的意义,而不是表格的意义,因此数据可视化也包含在数据探索中。例如,作为 GitHub 数据科学家,您可以使用折线图来显示随时间推移的提交次数。条形图可用于比较平台上使用的不同编程语言的流行度。网络图可以说明用户或存储库之间的协作。

来源: