2023美赛Y题思路如下:
1. 题目分析:首先由于二手帆船领域的专业性,相关数据信息的获取比较难,可以参考二手领域其他产品(二手车、二手房)的定价原理等信息来构建建模思路。其次,数据预处理方面,对缺失值的处理常用方法包括:最近邻算法、拉格朗日插值处理、三次卷积等。
2. 思路分析:定价模型在往常国赛出现过,可以用作思路参考。本题难度系数较大,核心是构建二手帆船定价模型,第一步我们可以搜集更多二手帆船领域的网站,第二步使用八爪鱼等爬虫技术进行数据爬取,第三步建立模型,将价格与其他数据信息建立关系。
3. 另外需要思考:分类数据与连续数据如何建立关系模型?两个分类变量关系可以使用卡方检验,而分类数据与连续数据之间关系可以用方差分析或者T检验,进而找到连续数据与分类数据之间的关系。前两题都是要求建立分类数据与连续数据的关系,注意尽量不要使用同一种方法分析。
问题三、讨论你对给定地理区域的建模如何在香港(SAR)市场上发挥作用。从提供的电子表格中选 择一个信息丰富的帆船子集,分为单船体和双体船。从香港(SAR)市场找到该子集的可 比上市价格数据。建模香港(特区)对子集中帆船的每艘帆船价格的区域影响(如果有的话)。 双体帆船和单体帆船的影响是一样的吗?
问题三,问题三的设问不同于问题一二,问题三要求我们单独的对香港这一地理区域