Elasticsearch清洗老数据，_id使用业务表id

最新推荐文章于 2025-07-12 00:03:25 发布

原创

最新推荐文章于 2025-07-12 00:03:25 发布 · 475 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #大数据 #搜索引擎

本文介绍了如何在Elasticsearch中清洗使用随机_id的老数据，转而采用业务表的user_id作为_id。内容涉及ingest管道的创建、使用Painless脚本访问字段以及执行reindex操作的实例。

文章目录

ingest
reindex
实例

ingest

reindex

实例

老数据的_id是随机生成，使用业务的user_id

预估大概多少需要清洗的老数据

GET yw_*/_search
{
	"size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "exists": {
            "field": "id"
          }
        }
      ], 
      "filter": {
        "script": {
          "script": """
            String a = String.valueOf(doc['id']);
            String b = String.valueOf(doc['_id']);
            return a!=b
          """
        }
      }
    }
  },
	"aggs":{ 
		"group_aggs":{
			"terms":{ 
				"field":"_index"
			}
		}
	}
}

创建管道
通过 painless 脚本访问字段：不同的上下文语法不一样

ingest 预处理：ctx.field_name
update: ctx._source.field_name


# 保存指定管道名（管道id）
PUT _ingest/pipeline/yw_pipeline_user_index_id
{
  "version" : 1, 
  "description": "id transfer",
  "processors": [
    {
      "

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

white_while

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ElasticSearch 数据老化清理之Curator

jiangzhuwanshi2008的博客

02-23

1284

前言随着接入ELK日志分析平台的系统增加，每日海量的日志数据使得磁盘空间越发紧张，从而ES的日志清理也成了一个常规操作。而ES官方也提供了一个很好用的工具——curator来实现这个事情...

合并两个 ES (Elasticsearch) 的数据

galoiszhou的博客

08-06

1693

要将两个 Elasticsearch 实例中的同一个索引（

参与评论您还未登录，请先登录后发表或查看评论

从一个线上问题看 Elasticsearch 数据清洗方式

铭毅天下Elasticsearch

04-10

7143

如下问题来自真实场景，用对话方式模拟还原问题解答过程。小明同学提问：铭毅老湿，如下两个链接，我们底层的数据是带空格的，但是用户输入可能不带空格这种改怎么处理?http://192.168.1.1/sr/6mm/ http://192.168.1.1/sr/6%20mm/铭毅老湿：上面两个链接是用户的行为？我们不能限制用户的输入是吧？小明同学：是哦，让用户输入字符加空格或者...

ELASTICSEARCH清理过期数据

weixin_33965305的博客

07-13

1419

转载于:https://www.cnblogs.com/palmxin/p/7158627.html

Elasticsearch的数据清洗与处理

AI天才研究院

01-21

1155

1.背景介绍 1. 背景介绍 Elasticsearch是一个基于分布式搜索和分析的开源搜索引擎。它可以处理大量数据，并提供快速、准确的搜索结果。在大数据时代，Elasticsearch已经成为了许多企业和组织的核心技术。数据清洗和处理是Elasticsearch的核心功能之一。它可以帮助我们将不规范、不完整、不准确的数据转换为有价值的信息。数据清洗和处理可以提高搜索效率，提高数据质量，降...

ElasticSearch的数据清洗与预处理

AI天才研究院

01-18

1368

1.背景介绍 Elasticsearch是一个开源的搜索和分析引擎，基于Lucene库，用于实时搜索和分析大量数据。它可以快速、高效地存储、检索和分析大量数据，是一种NoSQL数据库。在大数据时代，Elasticsearch在搜索和分析领域具有重要的地位。数据清洗和预处理是数据分析和搜索的基础，对于Elasticsearch来说，数据清洗和预处理是非常重要的。数据清洗是指对数据进行过滤、去除...

Elasticsearch 构建实时数据可视化应用

BXA

10-24

1308

在采集数据的过程中，可以对数据进行清洗、转换、过滤等处理操作，以便后续的存储和分析。用户可以根据自己的需求进行数据的筛选、聚合和分析，以获取更深入的数据洞察。Elasticsearch可以作为数据的存储引擎，可以将实时产生的数据存储到Elasticsearch中，并提供高效的数据检索功能。可以使用工具来监测集群的健康状况、节点的负载情况、索引的性能等，并及时采取相应的措施来保证集群的稳定运行和高效性能。通过使用Elasticsearch的搜索和过滤功能，可以对实时数据进行实时的搜索和过滤操作。

Elasticsearch 滚动（Scroll）用法、使用场景及与扫描（Scan）的区别

热门推荐

RanGe的博客

05-15

1万+

警告: 本篇博客是记录一个学习的过程,中间会有很多弯路 kettle中可以使用多种输入输出, 常用的有:表输入,文件输入,表输出,文件输出等, 本文用到的输入为txt文本文件输入, 输出类型为输出到kafka 这里解释一下为什么要是用kafka而不是直接生成文件到本地因为需要处理的数据是比较多的, 一般是几亿条, 或者几十亿条, 文件大概是几个G到几十G, 如果生成的文件落地到磁盘, 那将会非常耗费资源 kettle清洗数据建立快速索引kettle从数据源获取数据, 这里是从txt文件中获取对文件中数据进

elasticsearch 如何清理过期的数据

y_zilong的博客

11-23

1万+

使用elasticsearch收集日志进行处理，时间久了，很老的数据就没用了并且占用很大的磁盘，这个时候就要对过期数据进行清理删除elasticsearch数据分为两种：一种是删除索引（数据和表结构同时删除，作用同sql server 中 drop table "表格名"），另一种是删除数据（不删除表结构，作用同 sql server中delete 语句） 1、删除索引 #查询索引 [root@ecloud-elk-05 opt]# curl -u zhanghao:mima -XGET 'htt

探究 | Elasticsearch如何物理删除给定期限的历史数据？

铭毅天下Elasticsearch

04-22

1万+

1、题记想到删除，基础认知是delete，细分为删除文档（document）和删除索引；要删除历史数据，基础认知是：删除了给定条件的数据，用delete_by_query。实际操作发现： - 删除文档后，磁盘空间并没有立即减少，反而增加了？ - 除了定时任务+delete_by_query，有没有更好的方式呢？ 2、常见的删除操作 2.1 删除单个文档 DELETE ...

Elasticsearch的数据质量与清洗策略

AI天才研究院

01-25

980

1.背景介绍 1. 背景介绍 Elasticsearch是一个分布式、实时的搜索和分析引擎，它可以处理大量数据并提供快速、准确的搜索结果。在实际应用中，数据质量直接影响了Elasticsearch的性能和准确性。因此，了解Elasticsearch的数据质量与清洗策略至关重要。在本文中，我们将从以下几个方面进行阐述：核心概念与联系核心算法原理和具体操作步骤数学模型公式详细讲解具...

简单Elasticsearch实战（四）数据清洗后，从mysql导入Elasticsearch

ikiler的博客

05-24

1260

本文只是简单做个例子，少量数据从mysql导入es还可以，大量数据的话还是建议专业工具来做，或者优化一下，改为多线程数据清洗首先，我们看一下，之前获取到的数据都是这样的，很不规范，而且有很多空值，残缺值，这就需要我们二次处理一下了。首先我在Mysql.py加一条函数这里我们使用pymysql的SSCursor来获取数据，这样做的好处是，他不会一次性把全部数据读出来，造成大量内存占用。对数据库数据多的情况下很有用。 import pymysql from common.Logger impor

elasticsearch 文档

weixin_34290096的博客

10-12

285

elasticsearch 文档文档格式索引中最基本的单元叫做文档 document. 在es中文档的示例如下： { "_index": "questions", "_type": "baichebao", "_id": "4", "_score": 1, "_version" : 1, &quot

Java 中使用 ES 高级客户端库 RestHighLevelClient 清理百万级规模历史数据

weixin_42265148的博客

08-23

2542

[cleanESHistoryData] 定时任务-清理索引:[{}],时间:{}的历史文档数据成功,耗时{}ms”“[cleanESHistoryData] 定时任务-清理索引:[{}],时间:{}的历史文档数据失败,耗时{}ms”// 构造查询条件，指定查询的时间范围，每次最多写入1000条数据至内存，减轻服务器内存压力。“清理索引:[{}],时间:{} 至 {}的历史文档数据成功,耗时{}ms”“正在清理索引:[{}],时间:{} 至 {}的历史文档数据…// 构造滚动查询条件，继续滚动查询。

ES的删除和更新，旧数据到低是如何处理的？

Chad_it的博客

10-13

2839

ES的删除和更新，旧数据到低是如何处理的？逻辑删除？物理删除？

elasticsearch 怎么删除过期的数据

JasonLee实时计算

06-19

6773

使用elasticsearch收集日志进行处理，时间久了，很老的数据就没用了或者用途不是很大，这个时候就要对过期数据进行清理.但是es5.0之后就不支持ttl,那怎么办呢? 1,请使用官方的工具elasticsearch-curator 2,使用delete-by-query方法删除特定时间范围的数据第一种这里不再介绍了,直接看官网吧,主要说下第二种语法格式如下: POST twi...

22图详解ElasticSearch 使用教程

良月柒

09-19

930

程序员的成长之路互联网/程序员/技术/资料共享关注阅读本文大概需要 12分钟。来自：r6a.cn/cyJw本文介绍了ElasticSearch的必备知识：从入门、索引管理到映射详解。...

logstash采集与清洗数据到elasticsearch案例实战

我的博客

10-28

9836

logstash 的使用 logstash支持把配置写入文件 xxx.conf，然后通过读取配置文件来采集数据 ./bin/logstash –f xxx.conf logstash最终会把数据封装成json类型，默认会添加@timestamp时间字段、host主机字段、type字段。原消息数据会整个封装进message字段。如果数据处理过程中，用户解析添加了多个字段，则最终结果又会多

python清洗elasticsearch数据

09-07

在Python中，清洗Elasticsearch数据通常涉及以下几个步骤： 1. **连接到Elasticsearch**：首先，你需要安装`elasticsearch`库，然后通过`Elasticsearch`或`Transport`类建立与Elasticsearch集群的连接。 ```python from elasticsearch import Elasticsearch es = Elasticsearch([{'host': 'localhost', 'port': 9200}]) ``` 2. **搜索数据**：使用`search()`或`get()`方法从索引中获取需要的数据，可以设置查询条件、大小限制等参数。 ```python results = es.search(index='your_index_name', body={"query": {"match_all": {}}}) ``` 3. **解析响应**：`search()`返回的是一个`Response`对象，包含结果列表。你可以使用` hits`属性访问每个文档，并使用`source`方法提取需要的数据字段。 ```python for hit in results['hits']['hits']: data = hit['_source'] ``` 4. **数据清洗**：对提取出来的数据进行清洗，这可能包括去除空值、转换数据类型、处理异常值、标准化格式等。例如： ```python data.pop('_id') # 如果不需要主键，可以移除 data = {k: v for k, v in data.items() if v is not None} ``` 5. **保存或操作清洗后的数据**：如果清洗完成，可以选择将数据存储到新的地方，如CSV文件、数据库或其他Elasticsearch索引，或者进一步分析处理。 ```python import csv with open('cleaned_data.csv', 'w', newline='') as csvfile: fieldnames = data[0].keys() writer = csv.DictWriter(csvfile, fieldnames=fieldnames) writer.writeheader() writer.writerows(data) ```