- 博客(14)
- 收藏
- 关注
原创 为什么「上下文检索」是提升 RAG 系统问答准确度的关键?
AI 有时无法准确回答知识库中的问题,原因之一是 RAG 系统的“文档切块”步骤可能导致语义缺失、歧义或全局结构丢失,使 AI 仅能理解局部信息。庖丁研究团队推出“上下文检索技术”,通过结构解析和语义重组跨越文档碎片,提升 AI 对内容的逻辑理解。实验表明,该技术使 RAG 系统问答准确率提升 13.9%,可广泛应用于企业知识库检索和个人文档管理,提高答案的精准度。
2025-03-07 15:51:48
943
原创 LLM 文档问答的技术求索:如何提升回答的可靠性
ChatDOC通过高效PDF解析和Embedding模型,提供精准、可溯源的文档问答。其API支持个性化应用开发,利用深度学习和高维向量化技术,提升信息提取与匹配质量,解放生产力。
2024-06-06 17:15:13
1363
原创 复杂 PDF 解析实测——PDFlux 和 LlamaParse,谁更胜一筹?
我们将最近大火的LlamaParse和 ChatDOC PDF 解析器(即PDFlux)进行对比,发现ChatDOC在处理包括财务报告、学术论文、法律文件在内的各类文档时都表现出了卓越的准确性和可靠性。
2024-05-24 11:50:36
3069
原创 PDF之父的三个关键抉择
查尔斯·格什克博士,PDF共同发明者,其人生三大抉择:转行计算机、创立Adobe、拒绝苹果收购,对现代印刷和出版业产生深远影响。
2024-05-15 18:06:29
1170
原创 ChatGPT 重磅更新,为什么我们仍需要 ChatDOC?
尽管OpenAI的ChatGPT更新增强了文件处理能力,但文档问答AI如ChatDOC仍具有其独特的应用空间。ChatDOC在理解复杂页面、表格、深入业务场景及提供可溯源答案方面表现更优。
2024-05-15 17:36:14
1223
原创 企业级知识问答,如何实现大语言模型的可靠应用?
文章探讨了大型语言模型在商业领域的应用,指出其在知识问答中的潜力及局限性。提出通过检索增强提升性能,庖丁科技据此开发的AI问答助手,可提高企业效率并确保回答可溯源。
2024-05-15 17:15:31
1167
原创 大语言模型的技术发展及金融领域应用展望
文章介绍了大语言模型ChatGPT的技术发展,包括预训练、微调、代码训练和基于人类反馈的强化学习等关键技术。探讨了ChatGPT在金融领域的应用前景,如智能投研、客服、投顾等,并指出了其局限性,如事实性错误、形式推理不足等,最后展望了未来技术方向。
2024-05-15 16:40:54
968
原创 文档智能:技术框架及在监管科技的应用
文章探讨了文档智能技术在监管科技中的应用,强调了非结构化数据的挑战,并介绍了文档智能处理的技术框架,包括全景文档结构识别、细粒度语义抽取、知识结构化等。同时,举例说明了文档智能在金融监管场景中的具体应用,如智能审核上市公司年报、债券募集说明书复核等,展示了其在提高监管效率和信息披露质量方面的潜力。
2024-05-15 16:02:52
1022
原创 电子文档全景结构识别漫谈
文章讨论了PDF文档在视觉呈现上的优势及其在内容再利用方面的挑战。提出了“文档全景结构识别”技术,旨在从PDF中提取物理和逻辑结构信息,使机器能够理解和分析文档内容。庖丁科技的PDFlux产品通过深度学习模型,能够识别和转换PDF中的段落、表格等,提升了金融等行业的文档处理效率。
2024-05-15 15:10:27
1053
原创 PDF的困境与未来
PDF由Adobe创立,现面临内容再利用挑战。庖丁科技的PDFlux通过文档结构识别,改善PDF内容提取和移动阅读,助力金融等行业文档智能化。
2024-05-15 11:32:44
757
原创 通过增强PDF结构识别,革新检索增强生成技术(RAG)
在“2 分块结果”部分,在分块 1 中,表格的上半部分表示为一系列短语,其中一个单元格可能被拆分成多行(例如单元格“China commerce(1)”),一些相邻的单元格可能被排列在一行中(例如第二行中的第三到第五个单元格,”services(1) Cainiao Cloud”)。表格中间的行没有水平线,因此表格中的行很难被识别。但我们只给出检索的内容,不给出答案,因为与提取信息类问题相比,综合分析类问题的答案较长(因此成本较高),并且更好的检索内容就意味着更好的答案(因为使用的大语言模型是相同的)。
2024-02-01 12:10:52
1160
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人