自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Datawhale AI夏令营 多模态RAG笔记

Baseline中只尝试了10个test,让baseline跑完所有的test,得到的分数为0.31321。在这里使用的是硅基流动的api跑Qwen3-8B模型,由于是免费的api,所以tpm只有50000,经常会遇到上限的情况,所以加入上限之后sleep30秒再重新从断点处开始跑。第一步,使用PyMuPDF库解析所有pdf文件,按页数分为chunk保存到json格式的文件中。然后将问题向量化,根据相似度从知识库中找到几个相似度高的chunk,输入到prompt中给llm产生回答。暂时没弄明白为什么变低。

2025-08-09 21:57:37 174

原创 “Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 基于baseline 优化尝试

运用以下代码测试合适的k值,多跑几次后发现每次k值都不一样,但是best_k=5的情况较多,所以都取5。第二部分后续打算再用LLM进行处理。将结果提交后发现LLM对于第一部分的得分较为不错。其次baseline中设置的k值为2,所以baseline第三部分得了0分。一开始没有加上第四条规则,结果llm返回的内容还带了思考的内容。

2025-07-12 22:49:47 200

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除