使用Elasticsearch 7.9.1实现对word，pdf，txt文件的全文内容检索

最新推荐文章于 2024-05-15 17:25:07 发布

原创

最新推荐文章于 2024-05-15 17:25:07 发布 · 1.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch

这篇博客介绍了如何在Elasticsearch中安装和配置ingest-attachment插件，用于处理文档附件并抽取文本。首先，通过命令行安装了分词插件和attachment插件。接着，定义了一个文本抽取管道，指定从content字段提取信息。然后，创建了文档结构映射，包括id、name、type字段，并设置了attachment字段，使用ik_smart分析器对content字段进行分词。最后，说明了如何将文件base64编码后上传到Elasticsearch。

1.安装插件

#预处理
./bin/elasticsearch-plugin install ingest-attachment
#分词
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/...这里找你的版本

2.定义文本抽取管道

PUT /_ingest/pipeline/attachment
{
    "description": "Extract attachment information",
    "processors": [
        {
            "attachment": {
                "field": "content",
                "ignore_missing": true
            }
        },
        {
            "remove": {
                "field": "content"
            }
        }
    ]
}

在attachment中指定要过滤的字段为content，所以写入Elasticsearch时需要将文档内容放在content字段

3.建立文档结构映射

PUT /docwrite
{
  "mappings": {
    "properties": {
      "id":{
        "typ

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

梁晓山（ben）

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Elasticsearch 实现 Word、PDF，TXT 文件的全文内容提取与检索

北执南念的博客

07-06

8849

Elasticsearch 实现 Word、PDF，TXT 文件的全文内容提取与检索

ElasticSearch 实现全文检索支持（PDF、TXT、Word、HTML等文件）通过 ingest-attachment 插件实现文档的检索_es全文检索word文件

最新发布

2401_84170337的博客

06-20

1224

执行sudo ./elasticsearch-plugin install file:///home/ingest-attachment-7.9.0.zip 即可。重启ES 打印 [apYgDEl] loaded plugin [ingest-attachment] 表示安装成功。1、先在ES的bin目录下执行命令安装 ngest-attachment插件。下载好后上传到服务器，进入elasticsearch安装目下的bin目录下。作者已经安装过了所以不能重复安装，插件下载过程中会出现。

参与评论您还未登录，请先登录后发表或查看评论

springboot+es实现对word，pdf，txt等文件的非结构化数据全文内容检索

06-11

使用spring boot+Elasticsearch 7.9.1+kibana 实现对word，pdf，txt等文件的非结构化数据全文内容检索

Elasticsearch Demo 读取word内容写入到Es上并展示在WebFrom页面上

10-26

Elasticsearch Demo 读取word内容写入到Es上并展示在WebFrom页面上,简单查询根据关键字检索并高亮显示。

【325期】Elasticsearch 如何实现 Word、PDF、TXT 全文内容检索？

Java精选

05-09

1509

简单介绍一下需求能支持文件的上传，下载要能根据关键字，搜索出文件，要求要能搜索到文件里的文字，文件类型要支持word，pdf，txt文件上传，下载比较简单，要能检索到文件里的文字，并且要尽量精确，这种情况下很多东西就需要考虑进去了。这种情况下，我决定使用Elasticsearch来实现。因为准备找工作刷牛客的原因，发现很多面试官都问到了Elasticsearch，再加上那...

使用ES检索PDF或Word等格式文件方案

大数据，大模型，服务器，技术、架构，方案

03-03

2852

使用git hook实时监控触发，或者直接简单使用定时任务从文件源下载pdf、word、md等格式的文档，使用java将文档内容转成Base64格式，仿照上面的思路方法写入ES，就可实现全文搜索了，搜索到的文档可以返回文档的在线下载地址，可以直接打开或下载，完成闭环。使用上述网站只能转换点小文件（也可能是浏览器的问题），我转了一个10页的PPT后页面无响应，无法拷贝结果。随后我转了一个更小PDF，可复制结果，发现字符数也有41万之多。首先，我们需要保证ES已经有中文分词器ik插件，这里不再赘述。

使用Elasticsearch进行word，excel，PDF的全文检索 windows实现超完整（ingest-attachment实现）

紫极岚的博客

06-30

7803

首先要明确的一点就是Elasticsearch的版本要和ingest-attachment的版本一致，要不然没办法安装。然后还有一点JAVA版本要在11以上先说说原理吧，其实就是将文件base64编码，然后再用插件读取文件内容并保存到es中。

Elasticsearch 实现对Word、PDF等文件进行全文检索

程序员小乐

05-14

701

ElasticSearch搜索office文档

c123m的专栏

04-24

617

Elasticsearch 通常用于为字符串，数字，日期等类型的数据建立索引。但是，如果要直接为 .pdf 或 .doc 等文件建立索引并使其可搜索该怎么办？在 HCM，ERP 和电子商务等应用程序中有这种实时用例的需求。在今天的这篇文章中我们来讲一下如何实现对 .pdf 或 .doc 文件的搜索。本解决方案使用于 Elasticsearch 5.0 以后的版本。实现原理我们采用如下的方法来实现把一个 .pdf 文件导入到 Elasticsearch 的数据 node 中：如上图所示，我们首先

如何实现Word、PDF，TXT文件的全文内容检索？

程序猿DD

12-03

1700

作者 |HENG来源 |https://www.cnblogs.com/strongchenyu/p/13777596.html简单介绍一下需求能支持文件的上传，下载要能根据关键字，搜...

使用Elasticsearch进行word，excel，PDF的全文检索 windows实现超完整（ingest-attachment实现）_elasticsearch pdf

2401_84181058的博客

04-15

1070

可能遇到的报错：{“error”:“Content-Type header [application/x-www-form-urlencoded] is not supported”,“status”:406}解决：添加-H ‘content-Type:application/json’这里是get请求，需要注意一定不要选成post，否则会直接对数据进行更新。test为要清空的表明，_delete_by_query可以理解为固定写法。返回值中的result是区分查找，插入和删除的方式。

Elasticsearch 搜索引擎实现对文档内容进行快速检索（保姆级教程）

热门推荐

li836779537的博客

05-15

1万+

本文主要讲解ES如何从提取文档中提取内容（word、pdf、txt、excel等文件类型），实现快速检索文档内容实现

Elasticsearch入门之（四）使用java全文搜索pdf、word、excel文件

Z丶royAl的博客

08-30

8515

一、这里我的思路是，在上传文件时候把数据库对应id存到Elasticsearch对应索引类型的id，然后利用工具类把pdf、word、excel文件内容存到Elasticsearch的id对应json里，返回所有文件id的list 二、这里我封装了一个读取pdf、word、excel文件工具类 package springboot.elasticsearch; import com.spire.pdf.PdfDocument; import com.spire.pdf.PdfPageBase; im

Elasticsearch全文检索解决方案（下）

FocusBigData博客

10-25

848

文档文档的三大元数据： _index 存放位置 _type 文档表示的对象类别 _id 文档的唯一标识自己设置文档的id： PUT /{index}/{type}/{id} curl -X PUT 127.0.0.1:9200/articles/article/150000 -H 'Content-Type:application/json' -d ' { "article_id":...

spring-boot ElasticSearch-5.6.12 windows 安装，mysql,csv,pdf,word导入到ES

fulq1234的专栏

07-19

2193

系统查询速度慢，就想用elasticsearch增加查询速度。并且能把pdf,csv 导入到elasticsearch. 系统使用了springboot版本号是.2.0.6.RELEASE。那么首先要确认elasticsearch的版本号 ........ <parent> <groupId>org.springframework.boot</gr...

ES全文检索pdf、word、txt等文本文件内容

Nguby的博客

11-09

2334

elasticsearch 文本抽取关键字高亮全文检索分页

对服务器上所有Word文件做全文检索的解决方案-Java

hijk7的博客

05-01

308

对服务器上所有Word文件做全文检索的解决方案-Java

springboot+es实现对word,pdf,txt等文件的非结构化数据全文内容检索

06-06

SpringBoot是一种快速构建基于Spring框架的Java应用程序的工具。为了实现对word、pdf、txt等文件的非结构化数据全文内容检索，可以使用SpringBoot和Elasticsearch（ES）来实现。Elasticsearch是一种开源搜索引擎，其使用简单、快速高效、支持几乎所有类型的查询操作。首先，需要将word、pdf、txt等文件的非结构化数据存储到ES中。可以使用Java中的POI、Apache Tika等工具来解析这些文件，将其转换为需要的文本格式，并将其存储到ES中。可以使用Spring Data Elasticsearch来实现与ES的交互，并创建一个Document对象来表示每个文件。其次，需要编写一个查询方法来搜索这些文件。可以使用ES提供的全文检索功能，使用户可以搜索其内容并找到与搜索关键字相关联的文件。可以使用Spring Data Elasticsearch来创建查询对象并执行查询，将结果返回给用户。需要注意的是，对于Word和PDF等二进制文件，需要将其转换为文本格式，而对于文本文件，只需将其直接存储到ES中。此外，还需考虑一些优化措施，如数据分片、数据备份和恢复等，以确保数据的完整性和可靠性。最后，SpringBoot和ES的集成可以大大简化非结构化数据全文内容检索的开发和部署工作。它不仅可以提高检索效率，还可以保证数据的高可靠性和安全性。因此，它是一种非常有用的工具，可以满足企业的数据检索和管理需求。