机器学习常识 2: 数据类型

本文探讨了各种数据类型,包括基本的数据元素如布尔型、枚举型和实型,以及结构化数据、图像数据、序列数据和图数据。结构化数据用一组固定特征描述实例,而异构数据包含不同类型的特征。图像数据用矩阵表示,序列数据如股票价格和文本数据具有可变长度,图数据则由节点和边构成,常用于社交网络分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要: 本贴讨论常见的数据类型.

1. 基本数据元素 (data item) 的类型

基本元素的类型包括: 布尔型、枚举型、实型等。

  • 布尔型有两种取值, 如: Yes/No, Pass/Fail.
  • 枚举型有多种取值, 如: 颜色有红/黄/绿, 形状有方/圆/梯. 这些值之间一般没有大小关系.
  • 实型如: 人的身高, 体重. 简便起见整型一般也当成实型, 而不是枚举型来处理.

2. 常见的数据类型

结构化数据是指每个实例/instance (样本/sample)用同一组特征/feature (属性/attribute) 进行描述.
例: 每个就诊者的检测报告包括: 性别、年龄、血压、红细胞数量、血小板数量共 5 个特征.
某些机器学习方法 (如决策树) 处理枚举型数据; 有些方法则只处理实型数据, 这时一个实例可以表示为一个向量.
如果数据的特征既有枚举型的, 又有实型的 (或其它类型), 就可以称为 异构数据 (heterogeneous data).
知乎: 结构化数据

图像数据本身可以用一个矩阵来表示.
机器学习和计算机视觉的20大图像数据集

序列数据由枚举型或实型组成.
它与结构化数据的区别在于: 不可以混用枚举型与实型, 长度不是固定的.
例如: 股票价格数据, 温度数据, 文本数据 (小说).
知乎: 时序数据

视频数据则是图像组成的序列数据.

图数据是指数据用结点和边表示. 如社交网络中, 结点表示人 (有性别、学历等特征), 边表示人与人之间的关系 (父女, 朋友等).
知乎: 知识图谱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值