YYYYES1-优快云博客

原创 Datawhale AI夏令营多模态RAG笔记

Baseline中只尝试了10个test，让baseline跑完所有的test，得到的分数为0.31321。在这里使用的是硅基流动的api跑Qwen3-8B模型，由于是免费的api，所以tpm只有50000，经常会遇到上限的情况，所以加入上限之后sleep30秒再重新从断点处开始跑。第一步，使用PyMuPDF库解析所有pdf文件，按页数分为chunk保存到json格式的文件中。然后将问题向量化，根据相似度从知识库中找到几个相似度高的chunk，输入到prompt中给llm产生回答。暂时没弄明白为什么变低。

2025-08-09 21:57:37 174

原创 “Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛基于baseline 优化尝试

运用以下代码测试合适的k值，多跑几次后发现每次k值都不一样，但是best_k=5的情况较多，所以都取5。第二部分后续打算再用LLM进行处理。将结果提交后发现LLM对于第一部分的得分较为不错。其次baseline中设置的k值为2，所以baseline第三部分得了0分。一开始没有加上第四条规则，结果llm返回的内容还带了思考的内容。

2025-07-12 22:49:47 200

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Datawhale AI夏令营 多模态RAG笔记

原创 “Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 基于baseline 优化尝试

空空如也

空空如也

原创 Datawhale AI夏令营多模态RAG笔记

原创 “Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛基于baseline 优化尝试