新闻文章中争议性问题及其子主题的识别
1. 计算子主题与情感相关性的方法
为了计算子主题候选与针对某问题所表达情感的相关性,我们按以下方式估计给定问题下候选的概率:
[P(t_{i}|\text{Issue}) = \frac{\sum_{t_{i} \in \text{NP} {\text{Issue}} \cap \text{senti}} \text{scr}(t {i})}{\sum_{t_{i} \in \text{NP} {\text{Issue}}} \text{scr}(t {i})}]
其中,(\text{NP}_{\text{Issue}} \cap \text{senti} = { \text{NP} | \text{NP} \in \text{sentence}, \text{sentence} \in \text{Issue}, \text{NP} \in \text{senti} })。
同时,上下文相似度(第一个统计特征)衡量问题和子主题共享相同上下文的程度,但它们可能出现在不同句子中。为了给与问题在同一句子中出现的子主题更高权重,我们通过计算它们在同一句子中出现的次数来衡量其句子相关性:
[ \text{Cor}(S_{\text{Issue}}, S_{\text{NP}}) = \frac{|S_{\text{Issue}} \cap S_{\text{NP}}|}{|S_{\text{Issue}}| \cdot |S_{\text{NP}}|} ]
这里,(|\cdot|) 表示集合中句子的数量。