Nominatim项目中的ICU分词器自定义模块开发指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00337/article/details/148575868

Nominatim项目中的ICU分词器自定义模块开发指南

Nominatim 项目地址: https://gitcode.com/gh_mirrors/nom/Nominatim

引言

在地址解析和地理编码系统中，文本处理是核心功能之一。Nominatim项目采用的ICU分词器提供了高度可定制的文本预处理机制，允许开发者根据特定需求对地名信息进行规范化处理。本文将深入探讨如何为ICU分词器开发自定义的清洗器(sanitizer)和分词分析(token analysis)模块。

模块类型概述

ICU分词器提供两种主要的自定义模块类型：

清洗器(Sanitizer)：负责在数据被添加到搜索索引前对名称和地址信息进行预处理
分词分析(Token Analysis)：用于生成搜索词的各种变体形式

自定义清洗器开发

基本结构

每个清洗器模块必须导出一个create工厂函数，其签名如下：

def create(config: SanitizerConfig) -> Callable[[ProcessInfo], None]

核心组件

配置对象(SanitizerConfig)：
- 提供对YAML配置文件中自定义参数的访问
- 支持获取字符串、布尔值、数字等类型的配置参数
处理信息(ProcessInfo)：
- place：包含地点信息的只读对象
- names：当前地点的名称列表，可修改
- address：当前地点的地址列表，可修改
地点信息(PlaceInfo)：
- 包含OSM ID、经纬度、地址等级等元数据
- 提供对地点各类属性的访问接口
地点名称(PlaceName)：
- 封装名称字符串及其附加属性
- 支持名称类型、语言等元信息的设置

开发实例：美国街道前缀处理

以下是一个处理美国街道方向前缀的清洗器示例：

import re

def _process_us_streets(obj):
    # 仅处理美国的街道级别地点
    if obj.place.country_code == 'us' \
       and 26 <= obj.place.rank_address <= 27:
        for name in obj.names:
            # 移除方向前缀并保留原名称大小写
            name.name = re.sub(r'^(north|south|west|east)[ -]',
                              '',
                              name.name,
                              flags=re.IGNORECASE)

def create(config):
    return _process_us_streets

这个清洗器会处理类似"North Main Street"的名称，将其转换为"Main Street"。

自定义分词分析开发

基本结构

分词分析模块需要实现两个函数：

def configure(rules, normalizer, transliterator) -> Any
def create(normalizer, transliterator, config) -> Analyzer

核心组件

分析模块接口(AnalysisModule)：
- 提供标准化的文本处理和变体生成功能
- 必须实现get_canonical_id()和compute_variants()方法
分析器(Analyzer)：
- 实际执行分词分析的类
- 接收规范化器和音译器作为构造参数

开发实例：长名称缩写生成

以下是一个为长名称生成缩写的分词分析器：

class AcronymAnalyzer:
    def __init__(self, norm, trans):
        self.norm = norm  # 规范化器
        self.trans = trans  # 音译器

    def get_canonical_id(self, name):
        return self.norm.transliterate(name.name).strip()

    def compute_variants(self, name):
        variants = [self.trans.transliterate(name)]
        
        # 仅为长名称生成缩写
        if len(name) > 20:
            acronym = ''.join(w[0] for w in name.split() if w)
            if len(acronym) > 2:
                variants.append(self.trans.transliterate(acronym))
        return variants

def configure(rules, normalizer, transliterator):
    return None  # 无配置需求

def create(normalizer, transliterator, config):
    return AcronymAnalyzer(normalizer, transliterator)

这个分析器会为如"United Nations Headquarters"的名称生成"UNH"缩写变体。