Datawhale AI 夏令营:从零入门 AI for Science(AI+气象)----Task 2

Task3: 进阶上分——赛题解析与新baseline解读

原任务地址:https://linklearner.com/activity/12/5/17

Part1 精读赛题——确定隐含条件和提交数据格式

在参与地理科学领域的降水预测竞赛时,深入理解数据特性和评分标准是取得成功的关键。本次竞赛要求参赛者使用伏羲大模型提取的特征数据,并结合ERA5再分析数据集,预测未来降水情况。数据的精确处理、模型的合理构建以及评分标准的明确理解,都是影响最终成绩的重要因素。

  1. 数据来源与类型

    • 输入特征数据(Feature)来自伏羲大模型。
    • 真实降水数据(Ground Truth)基于欧洲中期天气预报中心的ERA5再分析数据的子集。
  2. 数据特性

    • 数据类型:浮点型,具体为float16。
    • 数据值域:最小值约-0.3,最大值可能高达10-50毫米或更高,大部分数据点的值很小。
  3. 数据物理意义

    • ERA5数据表示的是一段时间内的平均降水量。
    • 数据抽样频率:每小时一次,表示一小时内的平均降水量。
    • 单位:毫米每小时。
  4. 数据格式

    • 输入数据格式为(1, 72, 24, H, W),分别代表批次、时间、特征/通道、纵向网格数和横向网格数。
    • 输出数据格式应调整为(1, 72, H, W),去除特征或通道维度。
  5. 数据处理

    • 数据格式:.nc格式的CDF数据,需要使用xarray包来读取。
    • 数据清洗:处理时间戳异常,确保数据完整性。
  6. 评分标准

    • 使用临界成功指数(CSI)进行评分,计算公式为CSI=hitshits+false_alarms+missesCSI=hits+false_alarms+misseshits​。
    • 极端降水定义:24小时累积降水量超过50毫米。
  7. 实验策略

    • 输出数据应使用ReLU激活函数,以确保数据在合理范围内,避免负值。
    • 训练时应避免大部分接近0的值对模型造成的负影响。
    • 训练模型以更准确地预测极端降水值,这些值对评分有重要贡献。
    • 进行数据集清洗,创建新的数据集或根据异常剔除空数据。
  8. 训练效果

    • 使用改进后的baseline和多数据训练后,可以显著提升分数。

综合分析所提供的竞赛资料,我们得出以下结论:竞赛要求参赛者处理和分析特定格式和类型的降水数据,使用特定的数据读取工具,并通过数据清洗确保数据质量。在模型构建时,需要使用ReLU激活函数来限制输出值的范围,同时在训练过程中注意避免大量接近零的值对模型性能的负面影响。此外,极端降水的准确预测对于提高临界成功指数(CSI)评分至关重要。通过改进数据集和训练方法,参赛者可以有效提升模型的预测性能,从而在竞赛中取得更好的成绩。

Part2 速通新baseline——与原始baseline对比发现实验提升细节

在本次竞赛的降水预测任务中,新baseline的引入带来了显著的改进,这些改进不仅优化了数据处理流程,还提升了模型训练的效率和性能。通过对比新旧baseline,我们可以清晰地看到在数据集加载、模型初始化、训练监控以及超参数调整等方面的具体提升细节。这些改进对于提高模型的泛化能力和预测精度具有重要意义。

  1. 数据集加载改进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值