大数据在医疗领域的应用与挑战
在机器学习领域,理解一些基础概念对于处理数据至关重要。以下是一些常见的定义:
- 实例(Instance) :指单行数据或一次观测。
- 特征(Feature) :即单列数据,是观测的一个组成部分。
- 数据类型(Data type) :指特征所代表的数据种类,例如布尔型、字符串型、数值型等。
- 数据集(Dataset) :用于训练和测试机器学习模型的实例集合。
- 训练数据集(Training dataset) :用于训练机器学习模型的数据集。
- 测试数据集(Testing dataset) :用于确定机器学习模型准确性/性能的数据集。
大数据概述
大数据是指大量、传统和数字数据的集合,这些数据是发现和分析的来源。它通常用于描述那些太大而无法在传统关系数据库系统中存储和处理的数据集。大数据的概念比较模糊,因为规模只是其一部分特征,还有其他因素共同构成了大数据的本质。
通过大数据分析,我们可以发现隐藏的模式、未知的相关性、趋势和偏好等信息,从而帮助利益相关者做出更好、更明智的决策。机器学习为此提供了一系列可应用于数据集的技术工具。
大数据最早在 2001 年由 Laney 描述为具有以下三个特征,也被称为三个 V:
- Volume(数量) :指生成和存储的数据量。大数据通常具有高容量的特点,其庞
超级会员免费看
订阅专栏 解锁全文
2077

被折叠的 条评论
为什么被折叠?



