百川和人大联合发布HtmlRAG,利用HTML格式增强RAG系统知识获取与处理能力丨11.7热门论文

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本文精选了今日热门论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

【要点】:论文提出HtmlRAG方法,使用HTML格式而非纯文本格式来建模检索知识,以提高检索增强生成(RAG)系统的知识能力和减轻大型语言模型(LLM)的虚构问题。
【方法】:作者提出了一种HTML清洁、压缩和修剪策略,以及一种两步骤的基于块树修剪方法,以减少HTML的冗余内容同时保留关键信息。
【实验】:在六个问答(QA)数据集上进行实验,验证了使用HTML在RAG系统中相较于纯文本的优越性。
链接https://www.aminer.cn/pub/672ae27101d2a3fbfc3ab462

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

【要点】:本文提出了DeeR-VLA框架,一种动态推理多模态大型语言模型的方法,以适应机器人平台的资源限制,同时保持性能不变。
【方法】:通过采用多出口架构,DeeR-VLA根据具体任务动态调整激活的语言模型大小,减少不必要的计算。
【实验】:在CALVIN机器人操作基准测试中,使用DeeR-VLA显著降低了LLM的计算成本5.2-6.5倍和GPU内存消耗2-6倍,同时不损失性能。数据集名称为CALVIN。
链接https://www.aminer.cn/pub/6729a11001d2a3fbfc5ba46f

Hunyuan-Large: an Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

【要点】:本文介绍了Hunyuan-Large,一种具有52亿激活参数的开源Transformer混合专家模型,其在多个基准测试中表现出优于LLama3.1-70B的性能,并与更大的LLama3.1-405B模型相当,创新点包括大规模合成数据的使用、混合专家路由策略、键值缓存压缩技术和专家特定学习率策略。
【方法】:Hunyuan-Large模型采用大规模合成数据训练,实施混合专家路由策略、键值缓存压缩技术和专家特定学习率策略,以及研究混合专家模型的扩展规律和学习率计划。
【实验】:通过在语言理解、生成、逻辑推理、数学问题解决、编程、长文本上下文和综合任务等多个基准上进行评估,使用的数据集未具体提及,Hunyuan-Large模型展现出优越性能,代码和模型权重已开源发布。
链接https://www.aminer.cn/pub/6729a0f701d2a3fbfc5b5efd

Docling Technical Report

【要点】:本文介绍了Docling,一个易用、独立的、基于MIT许可的开源PDF文档转换包,具有创新的文档布局分析和表格结构识别AI模型。
【方法】:Docling采用DocLayNet模型进行文档布局分析,以及TableFormer模型识别表格结构,确保高效的资源利用和易于扩展的代码接口。
【实验】:未具体提及实验细节或使用的数据集名称,但报告指出Docling能在普通硬件上高效运行,并具有在小资源预算下的良好性能。
链接https://www.aminer.cn/pub/66c3fced01d2a3fbfc6f11db

查看完整热门论文合集:https://www.aminer.cn/topic/672cd492f2f9681c9339478f

AMiner AI对话入口:

https://www.aminer.cn/chat/g/explain

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值