山东大学数据科学导论笔记

数据科学课程精要
本文深入探讨数据科学的核心概念,包括数据预处理、模型建立、清洗与集成、探索性分析等关键步骤。涵盖NLP、ML、推荐系统原理,以及Hadoop在大数据处理中的应用,强调众包思想在实践中的作用。

数据科学导论这门课,怎么说呢。老师也不知道教了什么,学生也不知道学了什么,莫名其妙考试也不知道靠什么。这里整理了一点笔记,仅供考试前参考!!

ch1 引言

引言这一章,基本上不会出题,了解即可。

数据科学概念:是对数据进行分析,抽取信息和知识的过程,提供指导和支持的基本原则和方法。它研究数据的各种类型、状态、属性及其变化规律,它研究各种方法,对数据进行分析,从而揭示自然界和人类行为等现象背后的规律。

数据科学的核心任务,是从数据中抽取有用的信息/知识

数据科学组成:一组概念 Concept 、原则 Principles 、过程 processes 、技术 techniques
/方法 methods 、以及工具 tools 。(简记cpptt)

数据科学的基本原则:

  1. 分析数据、获得知识,从而解决具体的业务问题,是数据科学的核心任务,这个任务可以划分为 understand data, collect data, integrate data, analyze data, visualize result, communicate result 等一系列的阶段
  2. 对数据分析的结果进行评估,需要结合所处的应用程序上下文环境进行仔细考察。
  3. 从大量的基础数据中,我们可能分析出变量之间的相关性
  4. 在一些属性上相似的实体,在其它属性上(可能是未知的一些属性)一般也是相似的。
  5. 在现有的数据上适配得很好的模型(分析结果),有可能不能很好地泛化,即不能适配到新数据上。
  6. 当我们从数据的分析结果中,试图得出一些因果关系的结论的时候,我们必须考虑到一些额外的因子(有可能先前没有考虑进来)。
  7. 通过并行处理提高数据处理(分析)速度

数据处理流程:采集、表示与存储、清洗、集成、分析、展现、决策

ch2 数据预准备

ETL 概念:(蛮重要的)
Extract:从源中提取数据
Transform: 在源、汇或暂存区转换数据
Load:将数据加载到汇中
在这里插入图片描述
数据预准备的阶段任务
阶段:数据特征化、数据清洗、数据集成
任务:必须有效地在空间和时间移动数据,包括数据传输 和 数据序列化和反序列化(用于文件或网络)

几种数据格式:JSON、XML、HTML

ch3 数据模型

关系型数据库不适用的原因

  • 索引:典型的 RDBMS 表存储大部分是索引,负担不起这么大的数据存储开销
  • 事务:安全状态变化需要日志等,而且速度很慢
  • 关系:检查关系会增加更新的开销
  • 稀疏数据支持:当数据非常稀疏时,RDBMS 表是非常浪费的
  • </
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值