#大数据/ES #经验 #方案架构
ES检索PDF/Word等格式文件方案
插件安装
ES有文档预处理插件,但是7.x版本默认发版包不包含这个ingest attachment plugin
。
通过摄取附件插件,Elasticsearch 可以使用 Apache 文本提取库 Tika 提取常见格式的文件附件(如 PPT、XLS 和 PDF)。
源字段必须是 base64 编码的二进制文件。如果不想承担在 base64 之间来回转换的开销,可以使用 CBOR 格式而不是 JSON 格式,并将字段指定为字节数组而不是字符串表示。这样处理器就会跳过 base64 解码。
在线安装
以下命令直接联网下载插件并安装
sudo bin/elasticsearch-plugin install ingest-attachment
离线安装
官网有说:This plugin can be downloaded for offline install from https://artifacts.elastic.co/downloads/elasticsearch-plugins/ingest-attachment/ingest-attachment-7.3.2.zip.
./bin/