数据科学全面解析:从基础到实践
1. 数据科学概述
SQL Server 不仅仅是一个普通的数据库管理系统,它是一个庞大的生态系统,由不同的服务协同工作,以提供非常复杂的数据平台管理任务。随着 SQL Server 2016 和 SQL Server 2017 版本中众多功能的添加,该系统的能力再次向大数据、机器学习和数据科学等现代数据处理方式扩展。
数据科学是一个现代术语,涵盖了大量不同的学科。可以将数据科学视为一个使用各种工具、流程、方法和算法从数据中提取知识和见解的领域,这些数据可以以结构化和非结构化的方式存储。从某种角度看,数据科学与数据挖掘非常相似。
数据科学领域包括与数据操作相关的一切,如清理、准备、分析、可视化等。它结合了许多可用于处理数据的技能,如编程、推理、数学技能和统计学。数据科学经常与大数据、机器学习等热门词汇一起被提及。实际上,涉及机器学习和大数据的项目通常会使用数据科学的原理、工具和流程来构建应用程序。
1.1 数据科学的重要性
截至 2005 年,人类大约创造了 130 EB(1 EB = 1000 PB)的数据,但这个数字正在迅速增长,而且全球创建的数据量并非呈线性增长,而是呈指数级增长,预计到 2020 年将增长到 40 ZB。如此大量的数据很难由机器甚至数据科学家处理,但采用适当的方法可以增加我们能够分析的数据比例。
1.2 数据科学项目生命周期
有不同的数据科学生命周期可供选择,以适应不同的项目。这里主要关注由微软定义的团队数据科学流程(TDSP)生命周期,它可应用于使用 Microsoft SQL Server 的数据科学项目。TDSP 提供了一个推荐的生
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



