wabby~bo-优快云博客

原创 Datawhale AI夏令营-多模态RAG财报问答-task2

检索增强：从外部知识库（财报PDF）获取最新信息，缓解LLM知识滞后问题多模态理解：结合文本与图像信息，实现更全面的语义理解核心任务：基于财报PDF的可溯源多模态问答数据源：仅限提供的图文混排PDF可溯源：必须标注答案出处（文件名+页码）多模态：需同时处理文本与图像问答精准问答：基于检索信息生成答案。

2025-08-09 23:54:29 1597

原创 Datawhale AI夏令营-TASK3-车次信息问答数据集构建与LoRA精调学习笔记

数据处理：Markdown表格解析需注意格式规范性，手动解析更可靠；问答生成：全量覆盖需按实体（车次）循环，确保每个样本的多类型问题生成；格式转换：Alpaca格式需严格保留和output字段，避免多余标记；参数调优：模型架构（如QWEN-8B的MQA）是参数选择的核心依据，需优先适配模块和学习率。通过以上流程，可构建高质量SFT数据集并高效完成LoRA精调，为列车信息智能查询模型提供坚实基础。

2025-07-30 23:33:41 1477 1

原创 Datawhale AI夏令营-TASK2：理解赛事重难点

LoRA（Low - Rank Adaptation of Large Language Models）微调可以在不改变预训练模型整体结构的前提下，通过少量的训练数据对模型进行微调，使其更好地适应特定任务。模型，这可能是基于其在语言理解和生成方面的性能，以及对列车班次相关问答任务的适配性。不同的模型在参数规模、擅长领域等方面存在差异，例如有些模型更擅长文本生成，有些则在知识问答方面表现出色。同时，还要考虑模型的响应时间和资源消耗，特别是在处理大量数据时，性能较差的模型可能会导致处理速度过慢或占用过多资源。

2025-07-27 23:32:05 1140

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人