
RAG
文章平均质量分 90
花千树-010
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
向量数据库全景概览:100+解决方案分类解析
随着AI技术的快速发展,向量数据库已成为处理高维数据、支持相似性搜索的核心基础设施。本文将对当前主流的100+向量数据库/存储方案进行分类解析,为技术选型提供全景式参考。原创 2025-03-15 18:00:00 · 888 阅读 · 0 评论 -
使用 Milvus 与 Ollama 进行文本向量存储与检索
Milvus用于存储向量数据和执行快速相似度搜索。Ollama提供文本嵌入 API,将文本转化为高维向量,作为 Milvus 中存储的向量数据。我们将首先在 Milvus 中创建一个集合,并定义存储结构,然后将文本数据和对应的向量插入到该集合中,最后实现向量的相似度查询。通过本示例,我们展示了如何结合Milvus和Ollama完成文本向量的存储和相似度检索。Milvus提供了强大的向量存储和检索功能,而Ollama则通过其 API 提供了高效的文本嵌入服务。原创 2025-02-26 10:34:30 · 1521 阅读 · 0 评论 -
全面了解 Stanford NLP:强大自然语言处理工具的使用与案例
(斯坦福自然语言处理工具包)是斯坦福大学开发的一个开源项目,致力于为开发者提供一个全面的自然语言处理工具。这个工具包包含了多种自然语言处理(NLP)任务的实现,包括但不限于:分词、词性标注、句法分析、命名实体识别、情感分析等。Stanford NLP 的目标是提供一个高效且功能丰富的 NLP 解决方案,使研究人员、开发者和数据科学家能够更轻松地处理和分析大量文本数据。Stanford NLP 是用 Java 语言开发的,提供了简洁易用的 API,因此,它可以在 Java 项目中非常方便地集成。原创 2025-02-20 19:27:13 · 1300 阅读 · 0 评论 -
Java中的自然语言处理(NLP)工具:Stanford NLP、Apache OpenNLP、DL4J
无论是需要处理简单文本分析任务,还是要构建复杂的深度学习模型,Java中都有丰富的NLP库可以选择。适合需要全面语言处理功能的场景,是一个轻量级的开源选择,适合快速集成和定制,DL4J则适用于需要深度学习支持的复杂NLP任务。根据项目需求的不同,你可以选择最合适的工具来完成自然语言处理任务。希望这篇文章能够帮助你更好地理解这些库的特点,并帮助你在Java中实现NLP功能。如何在Java中使用深度学习进行NLPStanford NLP官方教程Apache OpenNLP官方文档。原创 2025-02-20 13:31:43 · 1908 阅读 · 0 评论 -
Java处理PDF合集
文章汇集了JAVA处理PDF的库详细介绍,包括:各个库的特点、Github、使用入门、详细案例,及JAVA处理PDF中图片文本识别的详细案例。原创 2025-02-19 13:11:52 · 684 阅读 · 0 评论 -
详细介绍Tess4J的使用:从PDF到图像的OCR技术实现
Tess4J是Tesseract OCR引擎的Java封装,提供了便捷的API接口,使得Java开发者能够轻松地将OCR功能集成到自己的项目中。Tesseract本身是一个开源项目,由Google支持,广泛应用于文档扫描、图像文字提取等领域。Tess4J允许开发者通过Java代码调用Tesseract引擎,处理图片、PDF等文件中的文本。Tesseract支持多语言的文本识别,包括中文、英文、法语、德语等,同时也支持自定义训练数据。它的高准确率使其成为OCR领域的领先工具之一。原创 2025-02-19 09:59:15 · 1936 阅读 · 0 评论 -
ICEpdf 全面介绍:一款强大的 Java 开源 PDF 引擎
随着各种应用程序中对 PDF 文件处理需求的增加,许多开发者开始寻找高效且强大的库来操作和显示 PDF 文件。ICEpdf 是由 IceSoft 提供的开源 PDF 引擎,它专为 PDF 渲染设计,并支持文本提取、图像提取等功能。在本文中,我们将深入探讨 ICEpdf 的关键功能,展示其实际应用的例子,并解释如何将其集成到 Java 项目中。原创 2025-02-18 13:40:49 · 884 阅读 · 0 评论 -
深入解析 iText 7:从 PDF 文档中提取文本和图像
iText 7 是 iText 库的最新版本,相比于其前身 iText 5,它不仅提供了更多强大的功能,还改进了 API 设计,并引入了模块化结构,使开发者可以根据需要选择所需的功能模块。iText 7 支持更多的 PDF 操作,例如生成 PDF/A、PDF/UA(无障碍 PDF)、数字签名、表单处理等,并且在性能、图形渲染等方面得到了显著优化。作为一个开源项目,iText 7 采用 AGPL 许可证,如果用于商业项目,则需要购买商业许可证。原创 2025-02-18 11:31:37 · 2464 阅读 · 0 评论 -
使用 Apache PDFBox 提取 PDF 中的文本和图像
Apache PDFBox 是一个用于创建、操作和提取 PDF 内容的 Java 库。原创 2025-02-17 13:55:59 · 1989 阅读 · 0 评论 -
Java 生态系统中处理 PDF 的库和工具
在现代开发中,PDF 文件因其兼容性和广泛使用而成为文档管理、存储和交换的标准格式。无论是生成动态报告、提取文本信息,还是编辑现有的 PDF 文档,都需要强大的 PDF 处理工具。本文将详细介绍几款在 Java 生态系统中广泛使用的 PDF 处理库和工具,它们各自具有不同的功能和优势,可以满足不同开发需求。重点介绍文本提取的功能,并附上具体的代码示例。原创 2025-02-17 12:06:33 · 1357 阅读 · 0 评论 -
开源 OCR 工具大比拼:常用工具全解析与选择指南
PaddleOCR:适合需要强大模型支持、处理复杂场景的应用。RapidOCR:适合实时性要求高、需要高效识别的场景。Tesseract:适合传统 OCR 任务,社区支持广泛。EasyOCR:易于使用,适合初学者和快速集成。Surya:在标准化英文文档识别方面表现优秀。docTR:适用于文档结构化分析和表格识别。开发者可根据语言、应用场景、性能需求及开发环境选择最适合的 OCR 工具,以提升项目效率和识别准确性。原创 2025-01-30 10:00:00 · 3833 阅读 · 0 评论 -
深入探讨 Tantivy 及其在 Milvus 中的应用:倒排索引库对比与选择
Tantivy是一个开源的全文搜索引擎库,类似于 Apache Lucene。它提供了一套丰富的搜索功能,包括倒排索引、布尔查询、范围查询和前缀匹配等。得益于 Rust 的高效内存管理,Tantivy 在内存占用和执行速度上表现出色,非常适合用于处理大规模数据集的搜索需求。库名语言特点适用场景TantivyRust高效内存管理,支持多线程并发查询高性能小规模应用LuceneJava强大查询功能,成熟文档评分与排序机制大规模搜索引擎WhooshPython轻量级,易用中小型应用、快速开发。原创 2024-10-31 13:45:12 · 1371 阅读 · 0 评论 -
使用 Jieba 进行中文分词的详细介绍
Jieba是一个用 Python 实现的中文分词工具,名字来源于“结巴”,寓意为“像结巴一样一个字一个字地分词”。简单易用:只需几行代码即可完成分词任务。多种分词模式:包括精确模式、全模式和搜索引擎模式,可以根据不同应用场景灵活选择。支持自定义词典:用户可以添加自己的词典,以提高分词的准确性。丰富的分词结果:支持返回词性标注等信息,便于进一步的文本分析。Jieba 支持用户加载自定义词典,以便更好地适应特定领域的分词需求。原创 2024-10-26 17:12:06 · 2714 阅读 · 0 评论 -
使用 DBpedia API 进行信息查询的详细教程
数据源和属性:SPARQL 查询和 RDFLib 查询针对某些特定的属性,例如,如果这些属性在 DBpedia 中缺失,则返回结果为空。而 Lookup API 基于关键词查找,返回的实体更多样化。查询范围:SPARQL 查询可以精确指定要查询的属性或关系,而 Lookup API 提供的是与关键词相关的多个实体和信息,范围更广泛。查询方式:RDFLib 直接加载资源并查询所有可能的属性,因此它的返回结果通常包含了更多元的数据。原创 2024-10-25 11:53:28 · 1563 阅读 · 0 评论 -
使用 SpaCy 和 NLTK 进行文本处理与切片详解
SpaCy是一个开源的自然语言处理库,专注于高效、快速、并且易于使用的文本处理任务,适合生产环境的应用。它提供现代的 NLP 功能,能够处理多种语言,支持词性标注、依存解析、命名实体识别(NER)等任务。特点工业级性能:相比其他 NLP 库,SpaCy 对内存优化和速度非常重视,使其在大规模应用中表现出色。深度学习模型:通过预训练的深度学习模型(如 BERT、Transformer),支持更复杂的 NLP 任务。丰富的功能:包括分词、词性标注、依存关系、实体识别等。管道体系。原创 2024-10-24 10:59:31 · 2227 阅读 · 0 评论 -
从文本到知识图谱:GraphRAG 各步骤的技术拆解与实现
在 GraphRAG 的工作流程中,多个步骤利用了大型语言模型(LLM)来提高文本处理的准确性和智能化水平,特别是在实体提取、消歧、关系识别和文本增强阶段。其他步骤则使用了多种 NLP 工具、图处理库、聚类算法、字符串处理工具等技术,以逐步将非结构化文本转化为结构化、知识丰富的图谱,为后续的增强生成提供有力支持。原创 2024-10-24 10:45:26 · 963 阅读 · 0 评论 -
深入解析 GraphRAG 的工作流程:从输入到知识图谱
GraphRAG 的整个工作流程可以分为多个阶段,每个阶段都有着特定的任务,从数据的加载到构建一个完整的图结构。Loading Input - 加载输入数据create_base_text_units - 创建基础文本单元create_base_extracted_entities - 基础实体提取create_summarized_entities - 实体汇总create_base_entity_graph - 创建基础实体图create_final_entities - 创建最终实体集。原创 2024-10-23 12:23:24 · 2371 阅读 · 0 评论 -
使用GraphRAG系统实现本地部署的Ollama模型问答系统
GraphRAG系统提供了一种强大的方式来使用文本数据并进行高效的问答和信息提取。在本文中,我们将基于GraphRAG系统的基本架构,结合本地部署的Ollama模型,演示如何从安装到索引和查询的完整流程。你可以通过这个教程学习如何使用本地的Ollama模型替代OpenAI或Azure的API,来构建自己的问答系统。原创 2024-10-22 11:08:33 · 803 阅读 · 0 评论 -
利用 PostgreSQL 构建 RAG 系统实现智能问答
RAG 系统的核心理念是:首先从知识库中检索与问题相关的文档或片段,然后通过生成式语言模型(如GPT)生成基于检索结果的答案。这种方法不仅提升了模型的问答准确性,还能够在多种场景中扩展大语言模型的应用。LangChain:一个为构建语言模型应用提供丰富工具的框架。PostgreSQL:作为存储文本片段及其嵌入向量的数据库。OpenAI API:为文档生成嵌入向量并使用 GPT 模型生成答案。原创 2024-09-23 13:18:52 · 1431 阅读 · 0 评论 -
PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询
在现代的机器学习和人工智能应用中,向量相似度检索是一个非常重要的技术,尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在 PostgreSQL 中安装pgvector插件,用于存储和检索向量数据,并展示如何通过 Python 脚本向数据库插入向量并执行相似度查询。原创 2024-09-19 12:27:20 · 4873 阅读 · 1 评论