机器学习任务类型与模型评估解析

机器学习任务与模型评估解析

1、下面描述了几个任务。请每次说明这是分类、回归还是聚类任务。如果是分类或回归任务,还需说明重点是预测还是解释。(a) 一位房地产经纪人根据经验设定房屋销售价格。她想知道自己设定的销售价格与统计模型估算的价格相比如何。(b) 很难预测一部电影是否会大卖,而且可以说很多钱都浪费了。好莱坞的一家营销机构认为他们找到了一个商机:他们想将电影利润建模为剧本方面(如场景数量、平均句子长度、是否为喜剧、是否为浪漫片、是否为惊悚片)和演员阵容(如主演是否有商业成功经历、每位演员的性别、年龄、种族)的函数。基于这一见解,他们想为电影制片厂提供建议。(c) 一位生物学家有几百条巴西某条河流中同一种亚种黄貂鱼的数据。属性包括体重、总长、尾长和皮肤色素沉着。在看了很多照片后,他认为实际上有两个不同的亚种。他想确定这些数据是否能证实他的怀疑。(d) 银行必须决定是否批准抵押贷款申请。决策所依据的变量包括家庭收入、信用评分、是否有过信用违约、资产数量、就业历史和其他债务数量。

  • (a) 回归任务,重点是解释。
    通过统计模型估算价格与经纪人设定价格对比,以解释两者差异。

  • (b) 回归任务,重点是预测。
    建模电影利润并为制片厂提供建议,以预测电影利润。

  • (c) 聚类任务。
    目的是根据数据判断是否存在两个不同亚种,即对黄貂鱼进行分类。

  • (d) 分类任务,重点是预测。
    银行根据变量决定是否批准申请,是对申请进行分类预测。

2、考虑k折交叉验证。(a) k折交叉验证与划分为训练数据和验证数据相比如何?说出一个优点和一个缺点。(b) 解释如何使用交叉验证来估计特定x值集合的预测值的标准差。

(a) 优点:k折交叉验证能更有效地利用数据,它多次分割数据,每次使用不同的、不重叠的验证数据集,可对100%的数据进行验证,还可能在一定程度上增加训练数据的规模;
缺点:运行时间长,需要对模型进行k次拟合和评估,运行时间会增加k倍。

(b) 在k折交叉验证中,每个k模型都会给出一个独立的评估标准估计值。可以对这k个估计值求平均值,并计算其标准差,以此来估计特定x值集合的预测值的标准差。

3、你想拟合一个线性回归模型。你是否需要设置种子值来确保结果的可重复性?为什么需要或不需要?

如果线性回归模型不需要随机数,通常不需要设置种子值来确保可重复性;但如果模型需要随机数,例如用于抽取随机自举样本或随机打破平局,那么不设置随机种子,程序结果就无法精确重现,此时就需要设置种子值来确保可重复性。

4、玛丽亚想将收入与教育及其他变量进行回归分析。她有一个包含500名受访者的调查样本。她将教育分为以下三类:高中以下( hs)。由于收入跨度达几个数量级,她使用收入的对数作为因变量。然后她拟合了以下线性回归模型:log(收入) = β0 + γ1I hs + β1x1 +… + βpxp + ε,其中I hs表示高中以上的指示变量,且ε ∼ N(0, 1)。当她拟合该模型时会发生什么,为什么?是否存在第二个可能的问题?

当她拟合模型时,会出现多重共线性问题。因为三个指示变量 $ I_{ hs} $ 之和为 1,存在完全的线性关系,导致无法唯一确定参数估计值。

第二个可能的问题是,收入中可能存在零值,取对数时无定义,会影响模型拟合。

5、对于连续结果,Lasso 最小化以下准则:RSS/n + λ∑(从 j = 1 到 p)|βj|,其中 RSS 是残差平方和。当 λ 增加时会发生什么?用以下陈述之一完成每个句子:• 先下降,最终再次上升;• 持续下降;• 持续上升;• 保持不变。(a) 测试数据的均方误差(MSE)……(b) 训练数据的均方误差(MSE)……(c) 测试数据的不可约误差……(d) 测试数据的平方偏差……(e) 测试数据的方差……

  • (a) 先下降,最终再次上升;
  • (b) 持续上升;
  • (c) 保持不变;
  • (d) 持续上升;
  • (e) 持续下降

6、威斯康星乳腺癌数据包含699名可能患有乳腺癌的患者。从UCI机器学习库下载数据,有三个数据集,使用名为“breast - cancer - wisconsin.data”的那个。变量列在“.names”文件中。结果是肿块是恶性(类别 = 4)还是良性(类别 = 2)。除了ID变量外,其他变量都是x变量(如肿块厚度、细胞大小均匀性等)。所有x变量的范围从1到10。数据集有少量缺失值。对于此练习,移除有缺失值的观测:(a) 拟合一个逻辑回归模型。(b) 对数据拟合一个Lasso模型,并通过交叉验证选择λ。创建一个交叉验证图和一个系数图。对系数图中任何不寻常的变量进行评论。确定哪些变量被选中。(c) 对数据拟合一个Lasso模型:使用一倍标准误规则通过交叉验证选择λ。是否选择了不同的变量子集?(d) 对选中的变量进行事后逻辑回归。(e) 使用α = 0.10进行反向逻辑回归。即,从全模型开始,移除最不显著的变量,直到所有变量在α = 0.10水平上都显著。评论所选变量有何不同。

本题需按以下步骤操作:

  1. 对处理后的数据拟合逻辑回归模型;
  2. 拟合Lasso模型,用交叉验证选 λ,绘制交叉验证图和系数图,分析系数图中不寻常变量并确定选中变量;
  3. 用一倍标准误规则交叉验证选 λ 拟合Lasso模型,对比变量子集;
  4. 对选中变量做事后逻辑
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值