语义模型构建中的知识获取误区与应对策略
1. 错误的获取方法和工具
即便我们可用于语义模型的数据和人员质量很高,但如果应用了错误的获取方法和工具,模型的开发仍可能受到影响。接下来将探讨这种情况是如何发生的,以及如何避免。
1.1 对模型挖掘工具和框架的误解
几年前,在面试知识挖掘岗位的候选人时,我会问他们如何解决同义词提取问题。令人失望的是,大多数人回答“简单,用 Word2Vec 就行”。
Word2Vec 是一个基于神经网络的系统,它以大型文本语料库为输入,将其中的术语映射为实数向量,可用于识别语义相关的术语,在自然语言处理和信息提取任务中发挥了重要作用。但它并非同义词提取的现成解决方案,原因如下:
- 不只是提取同义词 :Word2Vec 倾向于找出相似的词,但其学习到的相似性不仅包括纯粹的同义关系,还包括反义关系、上下位关系等。所以,如果我们只想要同义词,就需要一种方法来过滤其他关系。
- 无法区分术语的不同含义 :Word2Vec 没有标准的方法来区分同一术语的不同含义。即使训练它的文本语料库包含同一术语的多种含义(如“Apple”既指水果又指公司),该术语也只会得到一个向量,可能会编码多种含义。因此,如果我们的术语和语料库存在歧义,就需要用消歧技术来补充 Word2Vec。
这种回答反映出人们对工具能力的误解,这是一个常见的陷阱,会导致我们使用次优的模型挖掘方法和工具。最坏的情况是产生不准确的模型,最好的情况也是浪费大量时间和资源。
造成这种误解的原因主要有两个:
- 缺乏对工具的深
超级会员免费看
订阅专栏 解锁全文
360

被折叠的 条评论
为什么被折叠?



