ElasticSearch不同类型下同名字段排序错误

最新推荐文章于 2020-07-28 19:41:47 发布

原创最新推荐文章于 2020-07-28 19:41:47 发布 · 397 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #java

elasticsearch 专栏收录该内容

21 篇文章

订阅专栏

本文讲述了在ElasticSearch中遇到的一种排序错误，问题源于不同类型的索引下存在同名字段，且字段类型不一致。在查询并涉及排序时，由于字段映射错误导致数据无法正确解析，从而抛出异常。建议避免使用同名字段或确保类型一致以防止此类问题。

虽然之前知道elasticsearch不同类型下同名字段要慎用，并且会出问题，但是只真正碰到了才印象深刻啊，前几天就碰到了，是关于一个排序的问题，事情的经过是这样的，在异常服务重启之后，某个查询突然出问题了，提示信息显示的是排序失败，如下：
1
2

{"error":"SearchPhaseExecutionException[Failed to execute phase [query], total failure; shardFailures {[Pqdw_LAFSbOfyo9yVU9aaw][xxx][0]: QueryPhaseExecutionException[[xxx][0]: query[ConstantScore(*:*)],from[0],size[10],sort[<custom:\"ActivityTimestamp\": org.elasticsearch.index.field.data.strings.StringFieldDataType$1@1693f17f>]: Query Failed [Failed to execute main query]]; nested: IOException[Can't sort on string types with more than one value per doc, or more than one token per field]; }{[Pqdw_LAFSbOfyo9yVU9aaw][xxx][1]: QueryPhaseExecutionException[[xxx][1]: query[ConstantScore(*:*)],from[0],size[10],sort[<custom:\"ActivityTimestamp\": org.elasticsearch.index.field.data.strings.StringFieldDataType$1@3a18c8ca>]: Query Failed [Failed to execute main query]]; nested: IOException[Can't sort on string types with more than one value per doc, or more than one token per field]; }{[Pqdw_LAFSbOfyo9yVU9aaw][xxx][2]: QueryPhaseExecutionException[[xxx][2]: query[ConstantScore(*:*)],from[0],size[10],sort[<custom:\"ActivityTimestamp\": org.elasticsearch.index.field.data.strings.StringFieldDataType$1@31266392>]: Query Failed [Failed to execute main query]]; nested: IOException[Can't sort on string types with more than one value per doc, or more than one token per field]; }]","status":500}
事实上这个问题很奇怪，没有动过该索引的任何东西，不过问题出现前倒是动了下服务器，重启了ES，结果第二天就出了这个问题，看来服务端有些问题。
拿到数据，一顿调试之后发现问题了。
该索引xxx下存在不同类型的相同字段名，并且悲催的是类型不一样，原因是后面新加了两个类型，由于是动态创建的，造成了和已存在的同名字段类型的不一致，（已存在的为DateTime类型，自动创建的是String类型）
在构建查询的时候，如果有排序的条件，会调用\SortParseElement.java类里面的addSortField方法，在
1
FieldMapper fieldMapper = context.mapperService().smartNameFieldMapper(fieldName);
这句，会根据字段的名称来获取对应的FieldMappper，如String类型对应的Mapper为StringFieldMapper，DateTime类型的Mapper为LongFieldMapper,然后会选择不同的FieldDataLoader,因为不同类型存储在lucene格式是不一样的，所以如果loader类型不对，加载的数据就解析不到正确的类型(可以理解为反序列化），如下图，同名字段出现了多个定义，通过字段名拿mapping定义的时候，非常朴实的就拿了第一个，而不是我期望的.
然后数据就不对了，当做string来处理，并且认为该字段包含了多个值，调用到了错误的StringOrdValFieldDataComparator类，并且在setNextReader这个方法里面直接抛异常了
1
2
3
4
FieldData cleanFieldData = fieldDataCache.cache(FieldDataType.DefaultTypes.STRING, reader, field);
if (cleanFieldData instanceof MultiValueStringFieldData) {
throw new IOException("Can't sort on string types with more than one value per doc, or more than one token per field");
}
这个问题只有在需要排序的时候出现，并且只在拿到错误的的field mapping的时候才会出现，非常隐蔽，需要特别注意哦。
ES在多类型下的同名字段的处理，确实有些问题，但也确实不好处理，如果要支持多个类型的搜索，除非条件中明确包含了是在那个类型下，这样ES才好判断具体应该取那个mapping，当然ES最好在已经明确类型的情况下，应该选择合适的Mapping（回头向shay吐吐槽）,所以最好的方法就是避免同名，否则一定要保证类型一致。