数据分析入门指南
1. 理解数据的本质
数据是数据分析研究的对象,也是整个数据分析过程中的关键要素。它们构成了待处理的原材料,通过对其进行处理和分析,可以提取各种信息,从而提高对所研究系统的认知水平。
1.1 数据转化为信息
数据是对现实世界中事件的记录,任何可以测量甚至分类的事物都能转化为数据。一旦收集到这些数据,就可以对其进行研究和分析,以了解事件的本质,并且通常还能进行预测或至少做出明智的决策。
1.2 信息转化为知识
当信息转化为一组规则,有助于更好地理解某些机制,并因此对某些事件的发展进行预测时,就可以称之为知识。
1.3 数据类型
数据可以分为两大类:
- 分类数据 :可以分为组或类别的值或观测结果。分类数据又可分为两种类型:
- 名义变量 :其类别中没有内在顺序。
- 有序变量 :具有预定的顺序。
- 数值数据 :来自测量的值或观测结果。数值数据也有两种不同类型:
- 离散值 :可以计数且彼此不同且分离的值。
- 连续值 :由测量或观测产生的值,可在定义的范围内取任何值。
以下是数据类型的表格总结:
| 数据大类 | 数据小类 | 特点 |
| ---- | ---- | ---- |
| 分类数据 | 名义变量 | 无内在顺序 |