机器学习入门指南
1. 聚类算法与降维算法
如果对聚类算法感兴趣,可通过链接 https://scikit - learn.org/stable/modules/clustering.html 了解十种聚类算法的详细信息,包括用例、可扩展性以及每种算法使用的指标。
涉及降维的重要机器学习算法如下:
- PCA(主成分分析)
- 核 PCA
- LLE(局部线性嵌入)
- t - SNE(t 分布随机邻域嵌入)
2. 机器学习任务
2.1 任务概述
机器学习任务通常按以下顺序进行(部分任务可能并非必需):
1. 获取数据集
2. 数据清洗
3. 特征选择
4. 降维
5. 算法选择
6. 划分训练数据和测试数据
7. 训练模型
8. 测试模型
9. 模型微调
10. 获取模型指标
2.2 获取数据集
首先要为任务获取数据集。理想情况下,数据集已存在;否则,需从一个或多个数据源(如 CSV 文件、关系型数据库、NoSQL 数据库、Web 服务等)收集数据。
2.3 数据清洗
数据清洗可通过以下技术实现:
- 缺失值比率:若数据集缺失值过多,可使用该技术。极端情况下,可删除缺失值较多的特征。
- 低方差过滤:用于
超级会员免费看
订阅专栏 解锁全文
1838

被折叠的 条评论
为什么被折叠?



