26、机器学习入门指南

机器学习入门指南

1. 聚类算法与降维算法

如果对聚类算法感兴趣,可通过链接 https://scikit - learn.org/stable/modules/clustering.html 了解十种聚类算法的详细信息,包括用例、可扩展性以及每种算法使用的指标。

涉及降维的重要机器学习算法如下:
- PCA(主成分分析)
- 核 PCA
- LLE(局部线性嵌入)
- t - SNE(t 分布随机邻域嵌入)

2. 机器学习任务

2.1 任务概述

机器学习任务通常按以下顺序进行(部分任务可能并非必需):
1. 获取数据集
2. 数据清洗
3. 特征选择
4. 降维
5. 算法选择
6. 划分训练数据和测试数据
7. 训练模型
8. 测试模型
9. 模型微调
10. 获取模型指标

2.2 获取数据集

首先要为任务获取数据集。理想情况下,数据集已存在;否则,需从一个或多个数据源(如 CSV 文件、关系型数据库、NoSQL 数据库、Web 服务等)收集数据。

2.3 数据清洗

数据清洗可通过以下技术实现:
- 缺失值比率:若数据集缺失值过多,可使用该技术。极端情况下,可删除缺失值较多的特征。
- 低方差过滤:用于

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值