自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【Datawhale AI 夏令营】使用 MinerU 实现高保真文档解析以优化多模态RAG

摘要 本文介绍了使用MinerU框架实现多模态PDF文档解析的技术方案。该项目旨在构建一个能够理解PDF中文本、图像、表格、公式等复杂内容的RAG系统。MinerU具有多模态解析、智能布局分析和视觉语言模型集成等优势,支持中文处理。技术实现分为三个阶段:1)PDF内容解析与提取,2)内容结构化处理,3)向量化与检索优化。通过将不同类型内容转换为Markdown格式并构建检索块,尝试了对金融分析等复杂文档的高保真解析。

2025-08-13 23:46:41 1051

原创 【Datawhale AI 夏令营】多模态RAG图文问答挑战赛分析

摘要:本文分析了"多模态RAG图文问答挑战赛"的核心任务与优化路径。该赛题要求处理财报PDF中的文本、表格、图片等多模态信息,构建可溯源的问答系统。评估标准强调答案准确性和来源精确性各占50%。当前Baseline方案存在丢失多模态信息、分块不合理等缺陷。优化方向包括:使用MinerU工具增强多模态解析能力,改进分块与索引策略,引入重排机制,以及针对财报领域微调Embedding和LLM模型,以提升信息完整性、检索精度和生成质量。

2025-08-09 23:59:36 629

原创 Datawhale AI春训营--蛋白质预测(AI+生命科学)

基础解题方案

2025-04-19 23:23:41 294

原创 Datawhale Al春训营 --RNA结构预测(AI+创新药)代码记录

【代码】Datawhale Al春训营 --RNA结构预测(AI+创新药)代码记录。

2025-04-19 23:18:34 122

原创 过拟合——Datawhale X 李宏毅苹果书 AI夏令营 深度学习(入门)Task3

本文主要介绍模型训练过程中的过拟合现象,并从概念、表现和应对方案三个角度进行阐述。

2024-09-03 23:53:13 618

原创 线性模型(其一)——Datawhale X 李宏毅苹果书 AI夏令营 深度学习(入门)Task2

本文简单记录对线性模型的其中一种改进。

2024-08-31 23:11:26 967

原创 机器学习案例分享——Datawhale X 李宏毅苹果书 AI夏令营 深度学习(入门)Task1

在数字化时代,数据无处不在,如何从海量数据中提取有价值的信息成为了一个重要课题。机器学习作为一种强大的数据分析工具,能够帮助我们从数据中学习并做出预测。本文通过一个具体案例——“视频的点击次数预测”,来介绍机器学习的运作过程。

2024-08-27 23:02:00 1021

原创 Datawhale AI夏令营——复杂推理能力评估Task1 跑通Baseline

本文记录了参加Datawhale AI夏令营的第一个任务经历,比赛为第二届世界科学智能大赛逻辑推理赛道:复杂推理能力评估。这个任务总体比较简单,主要在跑通Baseline,了解使用第三方平台进行ai任务的基本流程。

2024-07-28 23:41:50 964

原创 Noisy Correspondence Learning with Meta Similarity Correction -- 论文阅读笔记

本文是笔者在阅读完论文《Noisy Correspondence Learning with Meta Similarity Correction》后的一些笔记概括以帮助理解,包含了个人想法,如有谬误,欢迎指正。更多细节请见原文。论文链接:https://ieeexplore.ieee.org/document/10204064。

2023-10-23 20:28:25 507 2

原创 C++ sort 降序排序的简便写法 - greater、lambda

本文总结了C++调用sort函数实现降序排序的简便写法,介绍了greater、lambda匿名函数两种实现方法。

2023-03-12 02:38:15 3177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除