摘要: 本贴讨论常见的数据类型.
1. 基本数据元素 (data item) 的类型
基本元素的类型包括: 布尔型、枚举型、实型等。
- 布尔型有两种取值, 如: Yes/No, Pass/Fail.
- 枚举型有多种取值, 如: 颜色有红/黄/绿, 形状有方/圆/梯. 这些值之间一般没有大小关系.
- 实型如: 人的身高, 体重. 简便起见整型一般也当成实型, 而不是枚举型来处理.
2. 常见的数据类型
结构化数据是指每个实例/instance (样本/sample)用同一组特征/feature (属性/attribute) 进行描述.
例: 每个就诊者的检测报告包括: 性别、年龄、血压、红细胞数量、血小板数量共 5 个特征.
某些机器学习方法 (如决策树) 处理枚举型数据; 有些方法则只处理实型数据, 这时一个实例可以表示为一个向量.
如果数据的特征既有枚举型的, 又有实型的 (或其它类型), 就可以称为 异构数据 (heterogeneous data).
知乎: 结构化数据
图像数据本身可以用一个矩阵来表示.
机器学习和计算机视觉的20大图像数据集
序列数据由枚举型或实型组成.
它与结构化数据的区别在于: 不可以混用枚举型与实型, 长度不是固定的.
例如: 股票价格数据, 温度数据, 文本数据 (小说).
知乎: 时序数据
视频数据则是图像组成的序列数据.
图数据是指数据用结点和边表示. 如社交网络中, 结点表示人 (有性别、学历等特征), 边表示人与人之间的关系 (父女, 朋友等).
知乎: 知识图谱