波士顿房价预测 1. 机器学习中的任务分类 2. 波士顿房价预测 2.1 分析数据 2.2 比较 MAE 和 MSE 2.2 代码 1. 机器学习中的任务分类 有监督学习(supervised):有特征也有标签 分类问题 classification 预测离散量 回归问题 regression 预测连续量 无监督学习(unsupervised):无监督学习 聚类算法 KMeans 降维算法 PCA 自监督学习: 大模型预训练,使用自监督 输入文本,自己挖空填空 2. 波士顿房价预测 2.1 分析数据 观察数据,最后一列代表房价,是连续量,所以房价预测是一个回归问题。 24.00 21.60 34.70 33.40 36.20 28.70 22.90 27.10 2.2 比较 MAE 和 MSE 这里模型的评估与分类问题不同,此处采用的是平均方差误差; MAE 平均绝对误差 指的是计算 (预测值-真实值) 的 平均值 ,这种方法可以直观地感受到误差的大小,也有实际的物理意义,更便于理解。但是绝对值会导致函数出现 不可导点 ,这将会给后续的计算带来很大麻烦; MSE 平均平方误差 就是 计算 (预测值-真实值) 的 平方 的 平均值, 这样得到的结果并无实际意义,但是解决了不可导点的问题,从计算角度来讲,更容易求导,简化了计算。 虽然我们无法从 MSE 的数值上直接得到有效信息,但是却可以通过比较来评估模型的好坏,信息是在比较中产生的。 2.2 代码 加载和拆分数据 X=[] y=[] with open('housing.data',mode='r',encoding='utf8') as f: for line in f: line = line.strip() if line: line = line.split(' ') line = [float(ele) for ele in line if ele] features=line[:-1] label=line[-1] X.append(f