1、什么是预测性数据分析?
预测性数据分析是构建和使用基于从历史数据中提取的模式进行预测的模型的艺术。
2、什么是监督式机器学习?
监督式机器学习技术基于一组历史示例或实例,自动学习一组 描述性特征 与 目标特征 之间关系的模型,然后可以使用该模型对新实例进行预测。
3、在信用评分领域,有两个模型。Model 1 仅依据贷款 - 工资比率这一个特征进行预测,Model 2 依据年龄和职业多个特征组合进行预测。你认为这两个模型中哪个对数据集中未包含的实例的泛化能力更好?
通常来说,Model 1 可能会有更好的泛化能力。因为 Model 1 仅依据 贷款 - 工资比率 这一个特征进行预测,规则相对简单,不太容易受到训练数据中噪声和特定模式的影响。而 Model 2 依据 年龄 和 职业 多个特征组合进行预测,规则复杂,可能过度拟合训练数据,在新数据上表现不佳。
4、术语“归纳偏置”是什么意思?
归纳偏置
归纳偏置指在学习过程中,需要告知其在数据中寻找何种类型的模式。机器学习算法的归纳偏置由一组假设构成,这些假设定义了算法探索的搜索空间以及所使用的搜索过程。使用归纳偏置是学习发生的必要前提,没有它,机器学习算法只能学到数据中已有的内容。
5、机器学习算法如何处理机器学习是一个不适定问题这一事实?
机器学习算法通过编码 归纳偏差 (即一组假设)来处理这一问题,该偏差能引导算法偏好某些模型而非其他模型。
6、使用不恰当的归纳偏置会出现什么问题?
不恰当的归纳偏置会导致错误。而且没有平均而言最佳的特定归纳偏置,通常也无法预先知道给定预测使用哪种归纳偏置最好。
7、人们常说,预测性数据分析项目80%的工作集中在CRISP - DM的业务理解、数据理解和数据准备阶段,只有20%用于建模、评估和部署阶段。你认为为什么会这样?
在业务理解阶段,需明确组织问题并设计数据分析解决方案,需深入了解业务场景和需求,这是项目基础,方向错误会导致后续工作白费。
数据理解阶段,要掌握组织内不同数据源及数据类型,为后续建模提供合适数据,若对数据理解有误,模型质量会受影响。
数据准备阶段,要将不同数据源转化为分析基表,涉及数据清洗、处理缺失值、特征选择等,工作繁琐复杂。
而建模、评估和部署阶段是基于前三个阶段的成果进行的,前三个阶段工作扎实,后续阶段相对会更顺利、高效,花费时间和精力相对较少。所以大部分工作集中在前三个阶段。
8、你正在使用美国人口普查数据构建预测模型。检查数据时,你发现“种族”特征中“白人”类别的比例比预期高。你认为可能是什么原因?
- 可能是样本选取存在偏差,没有完全随机抽样,导致白人在样本中占比过高;
- 也可能是数据收集过程存在问题,如某些地区数据收集更集中于白人社区;
- 或者在数据处理阶段出现错误,影响了种族类别的统计比例。
9、为什么一个在数据集上准确率很高的预测模型在部署后可能无法很好地泛化?
在训练过程中,模型会不断调整以适应训练集中的实例,当模型过度适应训练集的特征和噪声时,就会发生 过拟合 。
过拟合会导致模型在训练集上表现良好,但在面对新的查询实例时,由于新实例的特征与训练集不完全相同,模型无法有效识别和处理,从而使其 泛化能力下降 ,无法很好地适应部署后的实际情况。
10、一家在线电影流媒体公司面临客户流失加剧的业务问题,即订阅客户取消订阅转而投向竞争对手。请列出可以使用预测性数据分析来解决此业务问题的方法。对于每种提议的方法,描述将构建的预测模型、企业将如何使用该模型,以及使用该模型将如何帮助解决最初的业务问题。
以下是一些可以使用预测性数据分析解决客户流失问题的方法:
-
构建客户流失预测模型
通过收集和分析历史客户数据,如观看行为、订阅时长、付款记录、互动频率等,构建一个预测模型,预测哪些客户有较高的流失可能性。企业可以利用该模型提前识别可能流失的客户,并采取针对性的挽留措施,如提供优惠活动、个性化推荐等。使用该模型可以帮助企业更精准地进行客户挽留,减少客户流失,提高客户忠诚度和业务收入。 -
客户满意度预测模型
分析客户的反馈、评分、投诉等数据,构建客户满意度预测模型,预测客户对服务的满意度。企业可以根据模型结果,及时发现客户不满意的地方,并进行改进,提高客户满意度,从而降低客户流失率。使用该模型可以帮助企业更好地了解客户需求,优化服务质量,增强客户粘性。 -
竞争对手吸引力分析模型
收集竞争对手的产品特点、价格策略、营销活动等信息,结合自身客户数据,构建竞争对手吸引力分析模型,预测哪些客户更容易被竞争对手吸引。企业可以根据模型结果,制定相应的竞争策略,如调整价格、推出差异化服务等,提高自身竞争力,减少客户流失。使用该模型可以帮助企业更好地应对竞争,保护市场份额。
11、一个国家税收委员会对上市公司进行审计,以查找并处罚拖欠税款者。提出两种使用预测性数据分析来解决这个业务问题的方法。对于每种提议的方法,描述将构建的预测模型、企业将如何使用该模型,以及使用该模型将如何帮助解决最初的业务问题。
以下是两种使用预测性数据分析解决该问题的方法:
-
构建企业纳税违规可能性预测模型
收集企业注册信息(行业类型、董事详情、公司位置等)、历年纳税申报数据、公开文件信息等,利用机器学习算法构建模型,预测企业未来是否会违反税收法规。企业可将待审计企业名单输入模型,获取每家企业的违规可能性评分,优先审计评分高的企业。这样能将审计资源集中在更可能违规的企业上,避免对合规企业的无效审计,提高审计效率和查出违规企业的概率。 -
构建企业纳税风险趋势预测模型
分析企业多年的财务数据、纳税申报数据、行业经济环境数据等,构建模型预测企业纳税风险的变化趋势。企业定期运行

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



