标准机器学习的开发编程流程
关注公众号“轻松学编程”了解更多。
一、流程
标准机器学习的开发编程流程:
1、获取数据(爬虫、数据加载、业务部门获取)
2、数据建模(摘选样本数据(特征、目标))
3、数据清洗(异常值检测和过滤)
4、特征工程(归一化处理:提高算法模型的精度)
归一化目的:使得每种特征数据的量级(权重)保持大致一致
归一化方法(常用):1.普通归一化处理 2. 区归一化 处理 3.使用函数
5、模型选择(分类、回归)
6、模型评估(打分,分类边界图,残差直方图)
7、算法调优(调整模型对象的参数值)
8、绘图
注意:以下命令都是在浏览器中输入。
cmd命令窗口输入:jupyter notebook
打开浏览器输入网址http://localhost:8888/
二、预测年收入是否大于50K美元
需求:读取adult.txt文件,最后一列是年收入,并使用KNN算法训练模型,然后使用模型预测一个人的年收入是否大于50 。
说明:获取年龄、教育程度、职位、每周工作时间作为机器学习数据 获取薪水作为对应结果 。
1、导包
import pandas as pd
import numpy as np
import ma