利用Flickr丰富地点类型分类法
1. 引言
分类法用于编码特定领域中存在的类别以及这些类别之间的关系。它们常被限制为“is - a”关系(也称为上下位词关系或包含关系),不过也可以考虑其他关系。分类法在生物学中尤为突出,其目的是将具有共同特征的生物进行分组。在信息系统中,分类法常用于组织内容,例如在线商店使用产品分类法让用户浏览网站,网站也会使用音乐流派、电影流派或地点类型的分类法以方便导航。本文聚焦于地点类型,不过类似的考虑也适用于音乐和电影流派、研究领域、应用程序等众多领域。
与生物学分类法紧密关联进化不同,地点类型分类法仅仅反映了自然语言标签之间的感知相似性,因此通常是特定于应用的。例如,在Foursquare分类法中,面包店、冰淇淋店和牛排馆都在与食品相关的场所类别中;而Wordnet将面包店归类为商店的下位词,牛排馆归类为餐厅的下位词,商店和餐厅都是建筑物的直接下位词。许多自然语言标签的模糊性进一步使设计合适的分类法变得复杂,比如在Tripadvisor上,冰淇淋店往往被列在餐厅类别下,而我们可能更自然地将其归为购物类别。
当使用地点类型分类法来组织内容时,上述问题不可避免。尽管地点类型可以以多种有意义的方式进行分组,但必须选择一个特定的层次结构。然而,分类法在生物学中重要的另一个原因是它们具有预测价值,例如预测哪些物种会成为入侵物种或哪些物种在生态上可能相似。同样,地点类型分类法可能对支持各种形式的归纳推理有价值。例如,用户在寻找适合带孩子出游的地点推荐时,当前的地点推荐系统(如Foursquare或Yelp)无法支持此类查询。通过分析用户评论,我们可能发现动物园、主题公园和海滩是适合带孩子出游的地点。原则上,足够精细的地点类型分类法应该能让我们识别出与这些地点在
超级会员免费看
订阅专栏 解锁全文
260

被折叠的 条评论
为什么被折叠?



