神经科学数据的探索性数据分析
1 数据类型
在数据分析中,我们通常会处理包含 N 个观测值和 n 个变量的数据集,记为 D = {x1, … ,xN},其中 xi = (xi1, … ,xin),i = 1, … ,N。可以将 D 看作一个 N × n 的矩阵、表格或电子表格,观测值按行排列,变量按列排列。
探索性数据分析是分析数据集的第一步,它能让我们直观了解数据,用简单的图形和指标总结其主要特征,而无需借助统计模型。通过这种分析,我们可以提出一些假设,比如两个变量是否相互独立,或者一个变量的均值是否高于另一个变量。
1.1 基本数据类型
主要有三种基本数据类型:
- 分类数据 :用于记录类别。
- 离散数值数据 :通常以整数形式表示的数值量,因为它们只能取有限或可数无限个值。
- 连续数值数据 :可以取连续无限范围的值,通常是实数集 R 的一个区间。
在某些数据集中,像“Class”变量(编码为锥体神经元 P 和中间神经元 I)代表分类数据;轴突节点总数和树突数量属于离散数据;体细胞紧凑度和相对于软脑膜的相对距离则是连续数据。
1.2 线性数据与方向数据
数值数据也被称为线性数据,与之相对的是方向数据。方向数据涉及方向(Rn 中的单位向量)、轴(Rn 中通过原点的直线)或 Rn 中的旋转。其他一些数据也可视为方向数据,例如时间段(如一天中的时间、星期、月份、年份)、罗盘方向、分子中的二面角和方向等。在数据集中,部分变量包含轴突和树突分支的角度信息。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



