利用集合选择算法进行国际专利分类代码(IPC)选择
1. 引言
专利专业人员日常面临的一项重要任务是,根据专利申请选择包含相关专利的国际专利分类(IPC)代码,即IPC选择/建议任务。这一任务在专利预分类以及专业专利现有技术搜索中都至关重要。然而,确定所有相关的IPC代码可能是一项困难、容易出错且耗时的任务,特别是对于在某些技术领域知识不足的专利专业人员而言。
将IPC建议任务自动化的问题,在一定程度上可以看作是大规模文本分类问题,也可以看作是专利分类问题。不过,与典型的文本分类相比,专利领域的IPC分类具有层次结构庞大和动态变化的特点。此前,许多研究人员尝试通过多种技术来解决专利分类自动化问题,但大多方法在子类和主组级别进行评估,分类的类别数量相对较少。
本文探讨并实验了分布式信息检索(DIR)领域的集合选择方法,以解决IPC建议任务。我们将IPC用于对专利进行主题聚类、分布和索引,形成数百或数千个子集合。并比较了最先进的集合选择算法CORI、基于融合的方法(BordaFuse、ReciRank)以及利用IPC方案层次结构信息的多层方法。
2. 国际专利分类(IPC)
专利领域广泛使用分类方案,以根据技术领域组织专利申请。国际专利分类(IPC)由世界知识产权组织(WIPO)管理,是国际公认的用于专利分类、排序、组织、传播和搜索的标准分类法。IPC提供了一个独立于语言的符号层次系统,目前约有71,000个节点,分为五级层次系统。
除了IPC,专利还可以通过其他分类方案进行分类,如欧洲分类(ECLA)和美国专利分类系统(USPTO)。最近,欧洲专利局(EPO)和美国专利商标局(USPTO)联合开发了合作专利分类(CPC