“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛基于baseline 优化尝试

原创已于 2025-07-13 22:39:53 修改 · 200 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-07-12 22:49:47 首次发布

赛事详情

首先使用LLM进行完成第一个任务，prompt如下：

prompt = f"""你是一个专业的电商产品识别系统。请从视频描述中识别推广商品，必须严格选择以下选项之一：
            - Xfaiyx Smart Translator
            - Xfaiyx Smart Recorder

            规则说明：
            1. 当描述提到"翻译"、"多语言"等关键词时选择Translator
            2. 当描述出现"录音"、"转写"等关键词时选择Recorder
            3. 遇到不确定情况时按照猜测选取一个结果
            4. 只输出结果

            示例：
            输入：30 这款设备支持实时语音转文字
            输出：Xfaiyx Smart Translator

            现在请识别：
            输入： {usr_input}
            """

一开始没有加上第四条规则，结果llm返回的内容还带了思考的内容。

其次baseline中设置的k值为2，所以baseline第三部分得了0分。

运用以下代码测试合适的k值，多跑几次后发现每次k值都不一样，但是best_k=5的情况较多，所以都取5。

第二部分后续打算再用LLM进行处理。将结果提交后发现LLM对于第一部分的得分较为不错。

得分情况：

后续尝试 7.13：

发现聚类出来的关键词包含了大量的停止词，由于文本大部分是英文，所以使用英文停止词来进行去stopwords。

kmeans_predictor = make_pipeline(
    TfidfVectorizer(tokenizer=jieba.lcut, stop_words='english'), KMeans(n_clusters=5)
)

提交结果后发现反而第三部分得分降低了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YYYYES1

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Datawhale AI夏令营：基于带货视频评论的用户洞察挑战赛上分全攻略

Loving_enjoy的博客

07-11

177

2025 iFLYTEK AI开发者大赛&Datawhale AI夏令营：基于带货视频评论的用户洞察挑战赛

Aurrorra的博客

07-13

703

一开始的源码import osos.makedirs("submit", exist_ok=True) # 关键：这行必须在保存文件之前执行# 2. 再保存CSV文件（此时目录已存在，不会报错）# 3. 最后压缩目录（可选）print("操作完成：submit目录已创建，CSV文件已保存，压缩包已生成！")Baseline的比较简要的设计思路是下图原baseline没做数据预处理的清洗，我们可以增强一手；商品识别用了jieba分词，

参与评论您还未登录，请先登录后发表或查看评论

“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛

fzyz123的博客

07-10

1404

摘要：本文介绍了DatawhaleAI夏令营2025年"基于带货视频评论的用户洞察挑战赛"的参赛指南。赛事要求完成商品识别、情感分析和评论聚类三项任务，利用85条带货视频和6477条评论数据，通过TF-IDF向量化和机器学习模型（SGD分类器、KMeans聚类）进行多维度分析。评估指标包括精确匹配、F1分数和轮廓系数，总分300分。文章详细解析了基线方案实现流程，涵盖数据预处理、文本分类、情感倾向判断和主题聚类等关键技术点，为参赛者提供了实用的解题思路和代码实现参考。

Datawhale AI 夏令营：基于带货视频评论的用户洞察挑战赛

2302_80059204的博客

07-13

883

用于：聚类后每个簇（cluster）中提取出最具代表性的前 10 个关键词；或者从 TF-IDF、词频统计、模型输出中选出权重最高的 10 个词语。

“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛代码优化笔记

2302_81068406的博客

07-13

568

在电商直播爆发式增长背景下，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。通过构建"商品识别-情感分析-聚类洞察"的完整分析链条：首先智能关联视频内容与推广商品，进而挖掘用户评论中的情感倾向与需求痛点，最终聚类形成消费者偏好画像。该分析赋能品牌精准优化选品策略、科学评估网红带货效能，将碎片化数据转化为结构化商业智能，成为直播电商竞争中的核心决策工具。

Datawhale AI 夏令营：基于带货视频评论的用户洞察挑战赛学习笔记

qq_53536009的博客

07-13

1052

摘要：本文介绍了科大讯飞AI开发者大赛"视频评论洞察"赛道的参赛方案。比赛任务包括商品识别、情感分析和评论聚类，使用85条带货视频和6477条评论数据。作者尝试用大模型技术替代官方baseline的jieba分词+TF-IDF方法，详细记录了Spark4.0Ultra API调用的过程及遇到的接口问题。针对商品分类和情感分析任务，设计了专门的prompt模板，并优化了批处理策略以提升效率。特别是情感分析任务，作者通过筛选40种典型标签组合案例优化prompt，并对比了逐条处理与批处理的性

Datawhale AI夏令营——基于带货视频评论的用户洞察挑战赛

m0_73672030的博客

07-13

857

Datawhale AI夏令营——基于带货视频评论的用户洞察挑战赛。

DataWhale AI 夏令营：基于带货视频评论的用户洞察挑战赛 Notebook（上篇）

m0_61233027的博客

07-13

202

为此，提出一系列改进建议：增强数据清洗（多语言、缺失标签处理、正则清洗噪声）、替换 TF‑IDF为 Sentence‑BERT 等语义 embedding、更换更强分词工具、通过轮廓系数自动确定最佳聚类数、引入大模型如 BERT 或 Qwen 等进行零样本提示或微调。深入分析赛题，文章指出该挑战背景是在电商直播快速发展的大环境中，通过分析带货视频的一手数据与评论，实现商品识别、情感多维分类和评论聚类，最终提炼出可用于商业选品和用户洞察的结构化主题。文件，最后提交到科大讯飞平台获取初步分数。

Datawhale AI夏令营：基于带货视频评论的用户洞察挑战赛

weixin_50089904的博客

07-11

555

这篇技术方案提出了一种轻量级机器学习方法完成商品识别、评论情感分析和聚类任务。商品识别采用关键词匹配；情感分析使用TF-IDF结合逻辑回归进行多分类预测；评论聚类通过KMeans自动分组并提取高频主题词。方案整体得分可达230+，仅需基础算力资源，适合作为baseline参考。主要局限在于TF-IDF对语义理解不足，未来可尝试BERT等深度模型优化分类效果和主题提取质量。

Datawhale AI夏令营-基于带货视频评论的用户洞察挑战赛

yxt2019的博客

07-10

186

根据Datawhale-学用 AI,从此开始提供的Demo，初次成绩为172.687。成绩为：203.8377. 优化【评论聚类】，调整kmeans的超参数n_clusters，代码如下：其余代码参考Datawhale提供的Baseline.ipynb。

[Datawhale AI夏令营]大模型技术-基于带货视频评论的用户洞察挑战赛baseline学习笔记

blue04137599的博客

07-09

1000

摘要：本文介绍了使用Python进行文本数据处理和机器学习的完整流程。首先通过pandas读取视频和评论数据，然后利用jieba进行中文分词，构建包含TF-IDF特征提取和分类器（SGDClassifier）的机器学习管道，预测视频产品名称和评论多类别标签。接着使用KMeans进行文本聚类分析，最后将处理结果保存为CSV文件。整个流程涵盖了数据读取、文本预处理、特征提取、模型训练预测及结果保存等关键步骤，展现了文本分析任务的典型技术方案。

Datawhale AI 夏令营：基于带货视频评论的用户洞察挑战赛 Notebook（上篇）

举世誉之而不加劝，举世非之而不加沮，定乎内外之分，辩乎荣辱之境，斯已矣。

07-10

3332

基于带货视频评论的用户洞察挑战赛 Notebook

基于带货视频评论的用户洞察挑战赛（Datawhale AI夏令营）

2301_81770858的博客

07-13

647

深度学习下载包时可能会遇到的问题及解决方案

最新发布

m0_50481455的博客

12-09

193

若确实下载安装了CUDA ，但是此时输出的CUDA是否可用为否，应该是torch的版本为cpu版本导致，刚刚的下载包的语句如果总是下载的是cpu版本，我们考虑直接去网站下指定包，再进行安装。CUDA Version表示的是驱动支持的最高 CUDA 版本，去官网下载 CUDA ，我这里是12.2，表示下载的版本最大只能是12.2。然后下载包时，比如本地环境是Python3.9，找包下载时候，3.9要下对应cp39的包。下载好后，执行语句安装。

【论文速递】2025年第34周(Aug-17-23)(Robotics/Embodied AI/LLM)

淋曦的进击手记

12-07

1210

自我监督的学习有望消除对手动数据注释的需求，从而使模型能够毫不费力地扩展到大规模的数据集和较大的体系结构。通过不针对特定的任务或领域量身定制，这种训练范式有可能使用单个算法从不同的来源学习视觉表示形式，从自然到航空图像。该技术报告介绍了Dinov3，这是通过利用简单而有效的策略来实现这一愿景的主要里程碑。首先，我们利用仔细的数据准备，设计和优化来扩展数据集和模型大小的好处。其次，我们介绍了一种称为GRAM锚定的新方法，该方法有效地解决了长期训练时间表中已知但未解决的密集特征映射降解的问题。

人工智能的基石之三：硬件

最简单的方法，解决最实际的问题。

12-05

675

高性能硬件是人工智能的基石，尤其是在机器学习和深度学习领域，海量数据是常态。从充当计算机大脑的中央处理器 (CPU) 到加速计算的图形处理器 (GPU)，硬件的作用是提供处理和运行复杂数据算法所需的原始能力。

AI泡沫什么时候破？

脑极体

12-04

778

而AI企业面对的短期形势，可能更为严峻。而AI公司和技术服务商，为了迎合决策者或拿下B端大项目，往往不计成本的低价竞标，无视人工成本的驻场开发，技术价值让位于领导偏好，企业自身也深陷人效黑洞，沦为挣辛苦钱的技术外包。To B/G不赚钱，To C也卖不上价，所以目前AI领域唯一清晰的商业模式，就是类似英伟达的“卖铲人”模式，卖加速卡和算力的企业成了这一轮AI浪潮的最大受益人。去伪存真之后，资本会冷却，叙事会修正，共识会重新凝聚，而那些持续追问“AI如何创造真实价值”的人，会与行业一同穿越周期，走向成熟。

LLM交互工具汇总：Open WebUI、ChatBot-UI、浏览器插件、Studio

lonelymanontheway的博客

12-05

783

Open WebUI、实战、mcpo、ChatBot-UI、实战、轻量级、浏览器插件、Page Assist、ollama-ui、Studio类工具、Cherry Studio、LM Studio、Msty Studio、参考、

宝马，如何建设一座AI汽车工厂？｜产业AI案例

chanyejiawang的博客

12-08

837

AI汽车时代来袭

“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 基于baseline 优化尝试

“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛基于baseline 优化尝试