第五届百度西安交大大数据赛‘划水’队方案初赛第9名复赛第23名_百度和西安交大的城区功能分类(urfc)数据集中带有标签的数据-优快云博客

本文回顾了一次比赛经历，强调了特征工程的重要性，特别是在访问数据和图像数据处理中。作者详细介绍了他们提出的91个特征及其分组，以及在图像处理上采用的不同策略和模型融合方法，最终虽未晋级决赛，但收获颇丰。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一次参加该类型的比赛，发现我们还是和大佬们的差距很大，要学习和提高的地方很多，比赛中的数据分为图像数据和访问数据，由于两边都是刚刚入门，为此都没有改得特别好的成绩，最终未能进入决赛，对一些经验进行总结吧。
复赛思路图如下：
在这里插入图片描述
在复赛中，我们前期花了很多的时间去做单模型的调参和做其他一些无用的实验，浪费了很多的时间来验证这些方法（之后我会简单地把我们做了没有显著效果的实验提出）。在比赛后期发现该比赛的上限仍然在如何提取特征上，可以说特征提取的好决定了整体模型的上限，而不同的算法只能去逼近这个上限。而图像在单网络进行改进的提高仍然有限，我们单模型最高仅有0.565，但是进行模型堆叠很容易达到0.58，进行二次堆叠实际上已经达到了0.6以上了，由于图像对GPU的要求太高了，做一次实验需要很长的时间，所以没有堆叠过多的模型（不知道思路对不对，这只代表个人看法，欢迎大佬指点）

一、访问数据

1、思路
访问数据之前在github上有个开源代码用将访问数据转换成矩阵的形式去学习，发现这种方法并没法获得很高的得分，特征工程还是提分的一个主要途径。为此我们提出了提出了共计91个特征，大概将其特征分为以下8个分组
1）用户信息user_F
2）总数信息sum_F
3）时间占比信息hour_ratio_F
4）时刻信息hour_F
5）时长信息hourlong_F
6）月份占比信息mouth_ratio_F
7）月/假期信息mouth_F
8）周信息week_F

2、对比与总结
对特征做了不同的组合训练了10个模型，得分为0.715。与大佬分享的方案对比，我们的方案基本上只是考虑了时序特征，极少考虑用户行为特征，也没有考虑不同建筑物之间的相邻关系，同样在特征的表征方面由于不清楚何种数据变换是有利于模型学习的，所以数据变换上基本上只有一种模态。
具体的特征提取可见后面github上分享的代码。

二、图像信息

由于初赛后策略选择失误，我们认为分数提不上去是因为图像特征上没有提高上去，这一个月中大部分时间都用于图像上的实验和提高，也做了很多没有显著效果的实验，总结下在复赛期间的一些实验。

1、思路
图像通过两方面进行处理，一方面将图像裁剪为32x32的图像，然后通过非预训练模型从零开始训练卷积层Seresnet164，将全连接层换为Xgboost，与卷积层相比可以提高3个百分点。另一方面将图像通过Seresnext101 + Efficientb5 + Seresnet152为骨干网络联合训练的网络，并最后用全连接层进行连接，最后得到了0.58左右的得分，两边模型融合得分超过0.6。

2、所做未有显著效果实验
1）放大分辨率或者超分辨率（训练时间过长）
2）class_weight
3）Focal loss
4）直接从噪声（数据量极低的访问数据和黑图）进行学习
5）局部描述子
6）语义分割学习
7）TTA

3、有一定效果的实验
1）改变学习策略
由于数据集原因用adam等自适应学习率测量很容易学习率下降的太快而局部收敛，效果不如加上Momentum的SGD，后发现Adadelta的收敛效果较好。
2）将全连接层替换
在这里插入图片描述
做了一些替换实验包括全连接层的通道数改变，总结了以上几种较有效果的方法。
3）选用合适batchsize

三、模型融合

融合的方法和初赛一样，都是通过跑出各模型的概率后通过xgboost进行融合，与之前不同的是在这次实验中我们通过融合将原来样本的特征也作为学习的依据，这样大概能提高0.5个百分点，可能是再次学习些原来没有训练的样本可以学习到一些不一样的特征。
由于实验原因没有去尝试多折，效果可能会更好。

附上github链接：
https://github.com/H11zang/URFC-2019

些许感想
感谢百度和西安交大举办了这次比赛及各位在群上和github上分享的大佬，入门小白学习到了很多。作为刚刚转入该行的两个准研，这种两边都要入门学习的比赛难度还是挺大的，虽然最终由于自己的知识储量和工程经验不足，很多想法没有得到实现，也比较遗憾没有进入决赛。感谢我的队友一起奋斗了整个7月，在不断的尝试和失败中丰富经验。若有机会，来年再战