文本挖掘中数据驱动与语义方法的结合
在文本挖掘领域,将数据驱动与语义方法相结合是一种重要的研究方向,它能为信息检索、文本聚类和分类等任务带来更优的效果。下面将详细介绍相关的技术和应用。
显式语义分析(ESA)
显式语义分析(ESA)旨在根据一组明确给定的外部概念对文档进行索引或分类。具体操作步骤如下:
1. 文档映射 :将文档映射到一个跨越这些概念的向量空间中的一个点。
2. 维度值计算 :通过测量文档文本与概念的文本描述之间的相似度来计算每个维度的值,常用的方法如TFIDF(词频 - 逆文档频率)。TFIDF值是词频(TF)和逆文档频率(IDF)的乘积,词频是指该词在给定文档中出现的次数,逆文档频率是指语料库中包含该词的文档数的倒数。
在将ESA应用于信息检索时,利用Wikipedia作为知识源是较为成功的做法。Wikipedia适合作为ESA的知识源,原因如下:
- 大多数文章使用文章正文的文本描述来定义单个概念。
- 具有广泛的覆盖面。
- 不同语言的Wikipedia数据库之间存在多语言连接。
我们开发了ESA的多语言扩展方法,利用语言链接在不同语言之间进行映射,并且将该方法应用于Wikipedia类别而非文章。通过探索ESA函数和检索方法的参数空间,确定了跨语言检索的最佳参数选择,并且在这种情况下,检索性能优于LSI和LDA。
例如,对于查询“健康食品”,基于文章(ESA)和类别(Cat - ESA)的ESA向量会激活不同的概念。ESA表示会激活对应于Wikipedia文章的“西兰花”和“薯片”概念,而Ca
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



