基于带货视频评论的用户洞察挑战赛（2025）

原创

已于 2025-07-13 21:56:11 修改 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-07-13 21:53:17 首次发布

赛题要求我们构建一个完整的分析链路，从视频内容中识别推广商品，对用户的海量评论进行多维度情感分析，并最终通过聚类提炼出有价值的用户洞察。

这是一次极具挑战但收获满满的经历。赛题的核心难点在于数据集小、多任务强依赖，这对模型的泛化能力和方案的整体性提出了很高要求。

在这篇文章里，我将完整复盘我的解题之路：从一个效果惊艳但有明显短板的经典机器学习Baseline开始，到大胆尝试大语言模型（LLM），再到最终回归深度学习，利用BERT微调打造出冲榜的“冠军方案”。希望能将我的思考、试错与最终的实现分享给大家，共同学习进步。

在动手之前，我们必须精准理解赛题。

比赛旨在模拟真实的商业场景：品牌方希望通过分析带货视频下的用户评论，来优化选品策略、评估网红带货效果。我们需要完成一个三阶段的全链路任务：

【商品识别】: 根据视频描述和标签，判断推广的商品是 Xfaiyx Smart Translator 还是 Xfaiyx Smart Recorder。
【情感分析】: 对评论文本进行四个维度的分类：
- sentiment_category: 情感倾向（正面/负面/中性等5分类）
- user_scenario: 是否与用户场景有关（二分类）
- user_question: 是否为用户疑问（二分类）
- user_suggestion: 是否为用户建议（二分类）
【评论聚类】: 根据情感分析的结果，对特定评论分组（如所有正面评论），进行聚类（5~8簇）并提炼出每个簇的主题词。

输入:
- origin_videos_data.csv: 含 video_id, video_desc, video_tags 等字段，部分product_name已标注。
- origin_comments_data.csv: 含 video_id, comment_id, comment_text 等字段，部分情感标签已标注。
输出: 一个submit.zip压缩包，内含：
- submit/submit_videos.csv: 包含所有视频的video_id和预测的product_name。
- submit/submit_comments.csv: 包含所有评论的comment_id和预测的4个情感标签，以及5个聚类主题词。