数据处理与聚类分析及分形图像压缩研究
1. 数据缺失值处理
在数据处理过程中,常常会遇到数据缺失的情况。对于从省份收集的统计数据,可能会由于疏忽或实际中未找到等原因,存在少量数据缺失。常见的处理缺失值的方法如下:
- 插补法 :包括均值、中位数、众数、随机抽样插补,以及时间序列特定方法、多重插补、K近邻(KNN)等。
- 删除法 :
- 成对删除
- 删除行(列表式删除)
- 删除列
2. K - 均值分析
2.1 K - 均值方法
K - 均值方法由Hugo Steinhaus发明,用于在一组无标签数据中寻找聚类和聚类中心。其算法流程如下:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([开始]):::startend --> B(选择k类的数量):::process
B --> C(为每个聚类寻找质心):::process
超级会员免费看
订阅专栏 解锁全文
96

被折叠的 条评论
为什么被折叠?



