基于关键词依赖轮廓的主题跟踪与文本分割技术解析
1. 关键词依赖轮廓(KDP)在主题跟踪中的应用
关键词依赖轮廓(KDP)在主题跟踪中发挥着关键作用,其具体应用包含以下三个主要步骤:
- 构建主题模型 :主题模型由主题内所有样本故事的轮廓构建而成,记为 KDPT={NT, ET, CT, WT}。其中,节点集 NT 通过选择每个与主题相关的样本故事的 KDP 中的节点形成,边集 ET 以同样方式形成,上下文集 CT 由将与主题相关的样本故事中相同节点或边的上下文中的所有单词相加得到,最后计算所有节点和边的权重 WT。节点的权重计算规则为:在与主题相关的样本故事中节点权重越高,在与主题无关的样本故事中权重越低,则该节点在主题模型中的权重越高。具体计算公式如下:
[
w_{T}(n_{k}) = \frac{\sum_{i \in S_{on}} w_{i}(n_{k})}{|S_{on}|} - \frac{\sum_{j \in S_{off}} w_{j}(n_{k})}{|S_{off}|}
]
其中,(n_{k}) 是 KDPT 中的一个节点,(w_{T}(n_{k})) 是其权重,(w_{i}(n_{k})) 是其在 KDPi 中的权重,(S_{on}) 包含所有与主题相关的样本故事的 KDP,(|S_{on}|) 是其中故事的数量,(S_{off}) 包含与主题无关的样本故事的 KDP。权重小于零的节点将被删除。节点上下文中单词的权重计算方式类似。
- 构建传入故事的轮廓 :提取主题模型中的所有关键词,然后使用这些关键词通过特定方法构建每个传入故事的 KDP。构建传入故事轮廓
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



