文本处理与分词归一化全解析
1. 整理输入文本
在文本处理中,输入文本的质量对分词器的输出效果有显著影响。当输入文本干净、符合有效规则时,分词器能产生最佳结果。这里的有效指的是文本遵循 Unicode 算法所期望的标点规则。然而,实际需要处理的文本往往并非如此,因此在分词前对文本进行清理可以提高输出质量。
1.1 处理 HTML 文本
使用标准分词器或 icu_tokenizer 对 HTML 文本进行分词时,效果通常不佳,因为这些分词器无法正确处理 HTML 标签。例如:
GET /_analyzer?tokenizer=standard
<p>Some déjà vu <a href="http://somedomain.com>">website</a>
标准分词器会混淆 HTML 标签和实体,输出如下分词结果: p, Some, d, eacute, j, agrave, vu, a, href, http, somedomain.com, website, a ,这显然不是我们期望的结果。
为了解决这个问题,可以在分词器之前添加字符过滤器对文本进行预处理。在这种情况下,可以使用 html_strip 字符过滤器来移除 HTML 标签,并将 HTML 实体(如 é )解码为相应的 Unicode 字符。
可以通过在查询字符串中指定字符过滤器,使用 a
超级会员免费看
订阅专栏 解锁全文
964

被折叠的 条评论
为什么被折叠?



