赛题要求我们构建一个完整的分析链路,从视频内容中识别推广商品,对用户的海量评论进行多维度情感分析,并最终通过聚类提炼出有价值的用户洞察。
这是一次极具挑战但收获满满的经历。赛题的核心难点在于数据集小、多任务强依赖,这对模型的泛化能力和方案的整体性提出了很高要求。
在这篇文章里,我将完整复盘我的解题之路:从一个效果惊艳但有明显短板的经典机器学习Baseline开始,到大胆尝试大语言模型(LLM),再到最终回归深度学习,利用BERT微调打造出冲榜的“冠军方案”。希望能将我的思考、试错与最终的实现分享给大家,共同学习进步。
一、赛题解析:任务、数据与评估
在动手之前,我们必须精准理解赛题。
1. 赛题背景与任务
比赛旨在模拟真实的商业场景:品牌方希望通过分析带货视频下的用户评论,来优化选品策略、评估网红带货效果。我们需要完成一个三阶段的全链路任务:
-
【商品识别】: 根据视频描述和标签,判断推广的商品是 Xfaiyx Smart Translator 还是 Xfaiyx Smart Recorder。
-
【情感分析】: 对评论文本进行四个维度的分类:
-
sentiment_category: 情感倾向(正面/负面/中性等5分类)
-
user_scenario: 是否与用户场景有关(二分类)
-
user_question: 是否为用户疑问(二分类)
-
user_suggestion: 是否为用户建议(二分类)
-
-
【评论聚类】: 根据情感分析的结果,对特定评论分组(如所有正面评论),进行聚类(5~8簇)并提炼出每个簇的主题词。
2. 输入与输出要求
-
输入:
-
origin_videos_data.csv: 含 video_id, video_desc, video_tags 等字段,部分product_name已标注。
-
origin_comments_data.csv: 含 video_id, comment_id, comment_text 等字段,部分情感标签已标注。
-
-
输出: 一个submit.zip压缩包,内含:
-
submit/submit_videos.csv: 包含所有视频的video_id和预测的product_name。
-
submit/submit_comments.csv: 包含所有评论的comment_id和预测的4个情感标签,以及5个聚类主题词。
-
3. 评估指标
-
商品识别: 精确匹配(Accuracy)。
-
情感分析: 各维度加权平均F1-score的均值。
-
评论聚类: 轮廓系数(Silhouette Score),官方指定使用其提供的Embedding模型进行计算。这是关键信息!
初步分析: 这是一个典型的多任务NLP问题,且任务间存在强依赖关系(商品识别 -> 情感分析 -> 聚类)。而聚类的特殊评估标准,成为解决本题的关键。
二、起点:一个强大又脆弱的Baseline
对于文本分类任务,一个经典且强大的Baseline是 TF-IDF + 线性模型。
1. Baseline方案简介
-
<

最低0.47元/天 解锁文章
187

被折叠的 条评论
为什么被折叠?



