松间敲玉花-优快云博客

原创 Datawhale扣子空间共学

这个Boss战模式将打字练习转化为紧张刺激的战斗体验，通过视觉、听觉和游戏机制的融合，大幅提升游戏的沉浸感和重复可玩性。- 每个Boss有固定血量，随关卡递增（如：Lv.1 Boss: 500HP, Lv.10 Boss: 3000HP）- 每个Boss有3个血量阶段（100%-70%，70%-40%，40%-0%）- 不同伤害级别有不同音效（小伤害: "噗"声，大伤害: "轰"声）- 特殊挑战目标（如: 80%以上准确率击败Boss）- 正确输入句子可获得少量时间奖励（+1-3秒）

2025-08-24 20:31:41 476

原创 Datawhale AI夏令营用户新增预测挑战赛优化策略2

当然我感觉这个对精度的提升聊胜于无（当模型精度很高的时候，大概提升0.2%，不过对比baseline应该提升可以），从理论上了说这个应该能够对用户的习惯进行更好的捕捉，但是实际下来并没有，不知道为什么，你们可以自己尝试一下，找找原因（我感觉是特征不好捕捉的缘故）。如果你模型精度已经很高，我就不建议用半监督学习了，因为伪样本置信度的缘故，可能会导致模型精度下降，当然如果模型精度一般倒可以进行尝试，因为可以大大增加训练样本数，效果可能比较好，可以看情况采纳。大家可以自己尝试一下呀，这次就分享这么多了。

2025-07-16 22:16:38 220

原创 Datawhale AI夏令营用户新增预测挑战赛优化策略

最近参加了datawhale夏令营的用户新增预测挑战赛优化策略的学习，针对初始的baseline，我对特征工程和模型选择以及训练模式进行一定的改变和优化，下面和大家一起学习分享。这里再给大家几个其他方面的tips,多训练几个模型，在进行权重投票可能有奇效，或者使用集成的方法，三个臭皮匠，顶个诸葛亮，当然训练时间也会大大增加（慎用！我们可以对用户ID这种类别多的用"目标翻译"（保持与原意关联），普通类别用"简单翻译"（直接转数字），数值特征用"统一度量衡"时间特征进行精细化调整，比如用户的使用时间习惯。

2025-07-13 20:21:52 326

原创混合推荐算法学习笔记与心得

通过这次学习，我对推荐算法有了更深入的理解，也掌握了混合推荐算法的核心思想和实现方法。未来我会继续深入学习，不断提升自己的算法能力。相关用ai进行了相关润色的参考代码（哈哈）目标是为用户A推荐商品。

2025-02-11 21:18:27 1048

原创 #AI夏令营 #Datawhale #夏令营 task3 对机器翻译模型改进的一些方法

总结task3代码相较于前task2，task1提升有很大，这就更有利于他预训练模式，但我在训练的过程中还引用了其他词典，虽然有提升，这种方法并不可取啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊，这也是为什么分数会提升较大的原因。在Transformer模型内部，可以通过增加位置编码来引入词序信息，或使用预训练的语言模型进行迁移学习，以提升模型的表达能力。上一期给出了优化思路，但是并没有进行具体的实践，恰巧task3整体的效果很不错，于是可以在他的基础上，进一步的优化和完善。这些指标可以全面反映模型的翻译质量。

2024-07-20 22:30:42 1524

原创 #AI夏令营 #Datawhale #夏令营 task2 对机器翻译模型改进的一些思路

Transformer模型优化：对于基于Transformer的模型，可以优化注意力机制，如引入稀疏注意力（如Longformer、BigBird等）或局部注意力，减少计算量。以上只是一些想法雏形，只含盖一小部分，在整个task2整体代码，相较于task1，虽然有优化，实际提升却很少，特别是中间还会出现很多数据丢失问题，说明还要从其他方面下手。多阶段训练：将训练过程分为预训练、微调等多个阶段，先在大规模通用数据集上进行预训练，然后在特定领域数据集上进行微调，提高模型在特定领域的翻译质量。

2024-07-17 19:03:24 991

原创 #AI夏令营 #Datawhale #夏令营 task1 对机器翻译模型代码优化的建议

优化主要分为3个方向：数据清洗、模型调优和评估，这三者是升机器翻译模型性能的关键。通过系统化的周期性数据清洗、模型调优和评估，能够不断提升机器翻译模型的翻译效果和准确性。3. 术语一致性：使用术语词典替换训练数据中的术语，确保术语翻译的一致性。反馈循环：根据评估和反馈结果，不断优化数据预处理、模型训练和调优策略。反馈迭代：根据评估结果，调整模型参数和训练数据，进行迭代训练。3. 使用预训练模型：利用预训练的语言模型进行迁移学习。定期更新数据：持续收集和清洗新的训练数据，更新术语词典。

2024-07-14 15:36:42 626

原创 #AI夏令营 #Datawhale #夏令营分子Ai预测 task4 关于一些代码的优化

6. 将每个模型在验证集上的预测结果加权平均得到最终的oof（out of fold）预测结果，将每个模型在测试集上的预测结果加权平均得到最终的测试集预测结果。最后，将预测结果保存为submit.csv文件，包括'test'中的'uuid'列和预测的'Label'列，并保存到本地。9. 最后，将三个模型的测试集预测结果进行简单的平均融合，得到最终的预测结果final_test。5. 对于每个模型，使用相应的参数进行训练，并获取在验证集上的预测结果和在测试集上的预测结果。

2024-07-06 20:50:06 520

原创 #AI夏令营 #Datawhale #夏令营分子Ai预测笔记task3代码优化建议

更精细的编码：对于类别型特征，可以尝试使用目标编码（Target Encoding）或M-Estimate Encoding等更复杂的编码方式，这些方式通常比简单的标签编码更有效。增加化学特征：除了使用TF-IDF处理SMILES字符串外，可以考虑使用RDKit库中的其他化学描述符（如分子量、氢键受体/给体数、logP等）作为额外的特征。更复杂的缺失值填充：对于缺失值，除了直接删除外，可以尝试使用均值、中位数、众数或基于模型的预测值进行填充。1.2 类别型特征处理。2. 模型选择与调优。

2024-07-04 20:48:27 587

原创 #AI夏令营 #Datawhale #夏令营分子Ai预测笔记task1

然后，通过模型的 fit 方法对训练集进行训练，输出训练和验证集的 AUC 评估指标，以监控模型在训练和验证集上的性能。首先，根据数据中的列名是否为 "test"，将数据分为训练集和测试集，并分别存储为 train_df 和 test_df。首先，代码开始导入必要的库和模块，包括 numpy、pandas、sklearn 中的 model_selection 模块和 metrics 模块，以及 CatBoost 库。首先根据数据的特征列和标签列，选择用于训练的特征，构建训练集和测试集的特征数据。

2024-07-03 21:12:39 873

原创 #AI夏令营 #Datawhale #夏令营分子Ai预测赛笔记task2

处理对象类型：在3.2步骤中，检查了训练集或测试集中的列是否为对象类型（通常表示分类数据）。更好的方法可能是使用独热编码、标签编码或目标编码，具体取决于分类特征的基数。特征工程：在3.1步骤中，从训练数据中删除了两列（'DC50 (nM)' 和 'Dmax (%)'），因为测试数据中没有它们。模型训练：在第4步中，使用训练数据（不包括前两列，可能是ID或非特征列）来拟合LightGBM分类器。分类编码：对于分类变量的编码，请考虑使用更复杂的方法，例如对低基数特征使用独热编码，或对高基数特征使用目标编码。

2024-07-03 21:05:28 422

2401_84247776的博客