目录
学习要求
掌握:数据科学的学科地位
理解:统计学、机器学习、数据可视化对数据科学的主要影响
了解:数据科学的理论基础
一、数据科学的学科地位
从学科定位看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域重叠之处。
- 数据科学与(传统)数学和统计学有区别
- “黑客精神与技能”——大胆创新、喜欢挑战、追求完美和不断改进
- “领域和务实知识”——不仅掌握数学与统计知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的实务知识与经验
- 数据科学:大数据背后的科学
- 新兴科学:是一门将“现实世 界”映射到“数据世 界”之后,在“数据 层次”上研究“现实 世界”的问题,并 根据“数据世界”的 分析结果,对“现 实世界”进行预测 、洞见、解释或 决策的新兴科学
- 交叉性学科:是一门以“数据”,尤其是“大数据”为 研究对象,并以 数据统计、机器 学习、数据可视 化等为理论基础 ,主要研究数据 加工与准备、数 据分析、数据管 理、数据计算、 数据产品开发等 活动的交叉性学科
- 独立学科:是一门以实现“从 数据到信息”、“从 数据到知识”和( 或)“从数据到智 慧”的转化为主要 研究目的,以“数 据驱动”、“数据业 务化”、“数据洞见 ”、“数据产品研发 ”和(或)“数据生 态系统的建设”为 主要研究任务的 独立学科
- 知识体系:是一门以“数据时 代”,尤其是“大数 据时代”面临的新 挑战、新机会、 新思维和新方法 为核心内容的,包括新的理论、 方法、模型、技 术、平台、工具 、应用和最佳实 践在内的一整套 知识体系。
二、统计学
1.统计学与数据科学
统计学是数据科学的主要基础理论之一。
2.数据科学中常用的统计学知识
- 从行为目的与思维方式看
描述统计:集中趋势分析、离中趋势分析
推断统计:采样分布、参数估计、假设检验
- 从方法论角度
基本分析法:回归分析、分类分析、聚类分析、关联规则分析、时间序列分析
元分析法:加权平均法、优化方法