数据科学导论这门课,怎么说呢。老师也不知道教了什么,学生也不知道学了什么,莫名其妙考试也不知道靠什么。这里整理了一点笔记,仅供考试前参考!!。
ch1 引言
引言这一章,基本上不会出题,了解即可。
数据科学概念:是对数据进行分析,抽取信息和知识的过程,提供指导和支持的基本原则和方法。它研究数据的各种类型、状态、属性及其变化规律,它研究各种方法,对数据进行分析,从而揭示自然界和人类行为等现象背后的规律。
数据科学的核心任务,是从数据中抽取有用的信息/知识
数据科学组成:一组概念 Concept 、原则 Principles 、过程 processes 、技术 techniques
/方法 methods 、以及工具 tools 。(简记cpptt)
数据科学的基本原则:
- 分析数据、获得知识,从而解决具体的业务问题,是数据科学的核心任务,这个任务可以划分为 understand data, collect data, integrate data, analyze data, visualize result, communicate result 等一系列的阶段
- 对数据分析的结果进行评估,需要结合所处的应用程序上下文环境进行仔细考察。
- 从大量的基础数据中,我们可能分析出变量之间的相关性
- 在一些属性上相似的实体,在其它属性上(可能是未知的一些属性)一般也是相似的。
- 在现有的数据上适配得很好的模型(分析结果),有可能不能很好地泛化,即不能适配到新数据上。
- 当我们从数据的分析结果中,试图得出一些因果关系的结论的时候,我们必须考虑到一些额外的因子(有可能先前没有考虑进来)。
- 通过并行处理提高数据处理(分析)速度
数据处理流程:采集、表示与存储、清洗、集成、分析、展现、决策
ch2 数据预准备
ETL 概念:(蛮重要的)
Extract:从源中提取数据
Transform: 在源、汇或暂存区转换数据
Load:将数据加载到汇中

数据预准备的阶段任务
阶段:数据特征化、数据清洗、数据集成
任务:必须有效地在空间和时间移动数据,包括数据传输 和 数据序列化和反序列化(用于文件或网络)
几种数据格式:JSON、XML、HTML
ch3 数据模型
关系型数据库不适用的原因
- 索引:典型的 RDBMS 表存储大部分是索引,负担不起这么大的数据存储开销
- 事务:安全状态变化需要日志等,而且速度很慢
- 关系:检查关系会增加更新的开销
- 稀疏数据支持:当数据非常稀疏时,RDBMS 表是非常浪费的 </
数据科学课程精要

本文深入探讨数据科学的核心概念,包括数据预处理、模型建立、清洗与集成、探索性分析等关键步骤。涵盖NLP、ML、推荐系统原理,以及Hadoop在大数据处理中的应用,强调众包思想在实践中的作用。
最低0.47元/天 解锁文章
1910

被折叠的 条评论
为什么被折叠?



