探索性数据分析:从基础到应用
1. 变量类型与测量
在数据分析中,变量主要分为两类:分类变量和定量变量。分类变量的数据具有固定的类别,而定量变量则是数值型的。例如,TCP 流量的目标端口属于分类变量,而在固定时间窗口内记录的流量则是定量变量。
分类变量又可进一步分为有序和名义变量。如果分类变量无法排序,则为有序变量;反之,则为名义变量。TCP 流量的目标端口可以排序,但恶意软件则难以进行有意义的排序。
定量数据可分为连续数据和离散数据。连续数据可以取任意值,而离散数据只能取特定的一组值。例如,一天内测量的流量可以根据测量的灵敏度取任意值,因此是连续数据;而域名的长度以字符数衡量,且不能超过 255 个字符,所以是离散数据。
域名长度是一个静态值,无论测量多少次,结果都不会改变。然而,该域名接收的流量每天都会变化,因此需要重复测量,这被称为重复测量。测量过程中可能会出现误差,例如使用工具测量金属棒时,每次测量的值都可能不同,这些变化就是测量误差。
以下是一个变量类型的示例表格:
| 变量类型 | 示例 |
| ---- | ---- |
| 分类变量 - 名义 | TCP 流量目标端口 |
| 分类变量 - 有序 | 难以排序的恶意软件 |
| 定量变量 - 连续 | 一天内测量的流量 |
| 定量变量 - 离散 | 域名长度 |
2. 描述性统计
数据分析通常从分布开始,在确定总体、样本和选定的单位后,对这些单位的某些属性进行测量,并创建分布。接下来,需要研究这个分布,而描述性统计是理解和描述分布的重要工具。
常见的描
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



