印度语言意见挖掘与高实用项集挖掘算法研究
1. 印度语言情感分析概述
在印度语言的情感分析研究中,情感极性的判断范围设定在 -5(非常负面)到 +5(非常正面)之间。具体操作时,先将提取的每个单词与极性词典单词列表进行比对,同时检查每个常用单词的后缀是否与否定后缀列表中的条目匹配。若匹配成功,则对包含否定后缀的单词的极性进行反转。每句话的极性由该句中各个单词的极性之和来计算。如果文档中正面句子占多数,那么该文档传达的意见被视为积极的;反之,如果负面句子占多数,则被视为消极的。
在多种印度语言的情感分析研究中,条件随机场(CRF)分类器是最常用的方法,特别是在容易为分类器选择特征的情况下。像孟加拉语和印地语等语言在该领域的研究相对广泛,而泰卢固语和曼尼普尔语等语言在意见挖掘方面的研究则较少。此外,那些已经拥有足够准确的处理工具(如词性标注器、词干提取器、WordNet 等)的语言,与处理工具较为原始的语言相比,在时间和资金投入上要少得多。
2. 零售市场背景与问题提出
如今,零售市场发展迅猛,影响广泛。B2C 公司为了提高业务利润,纷纷推出诱人的优惠和方案,但往往缺乏合理规划。在数据挖掘领域,知识发现可以有效助力企业实现利润增长。本文提出了一种新颖的方法,通过扩展 Apriori 算法,利用超市的交易日志,确定哪些商品适合组合销售,即提出了高实用项集挖掘算法(HUM - IS2),并引入剪枝策略以去除不必要的商品组合。
3. 相关工作
数据挖掘的应用范围不断扩大,涵盖了网络、电子学习、购物等多个领域。不同的研究人员提出了各种相关算法和概念:
- Han 等人描述了在多种数据格式和场景下的挖掘机制。