Java过滤器替换HTML中字符,ElasticSearch中的html_strip字符过滤器用换行符替换标签?...

本文探讨了ElasticSearch中的html_strip字符过滤器如何处理HTML标签。测试结果显示,该过滤器对不同标签的处理方式不同,如将`<p>`标签替换为换行符,而对某些其他标签如`<strong>`和链接不做处理。这可能导致意料之外的结果,因此建议额外使用过滤器去除不需要的换行符。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我正在测试ElasticSearch的一些自定义过滤器,因为我很迷恋,所以我决定测试标准的html_strip字符过滤器,以确认我知道它是如何工作的。ElasticSearch中的html_strip字符过滤器用换行符替换标签?

如此看来,我不知道它是如何工作的,因为我认为它会去除所有的HTML,并没有取代它,但它似乎对不同的标签,例如做不同的事情P(与格)标签与换行符替换:

curl -XGET 'http://localhost:9200/test-analysis/_analyze?tokenizer=keyword&char_filters=html_strip&pretty=1' -d 'Oh

pickles

!'

{

"tokens" : [ {

"token" : "Oh \npickles\n!",

"start_offset" : 0,

"end_offset" : 32,

"type" : "word",

"position" : 1

} ]

}

强劲的标签和链接用什么代替:

curl -XGET 'http://localhost:9200/test-analysis/_analyze?tokenizer=keyword&char_filters=html_strip&pretty=1' -d 'Oh pickles!'

{

"tokens" : [ {

"token" : "Oh pickles!",

"start_offset" : 0,

"end_offset" : 31,

"type" : "word",

"position" : 1

} ]

}

当然,我可以添加另一个过滤器,去除换行符,但没有任何有关文档这个?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值