网络表示学习（PTE-2015KDD）

最新推荐文章于 2025-09-14 15:21:57 发布

原创最新推荐文章于 2025-09-14 15:21:57 发布 · 491 阅读

1 ·

CC 4.0 BY-SA版权

笔记专栏收录该内容

74 篇文章

订阅专栏

本文介绍了一种名为PTE的高效算法，它通过将异构文本网络嵌入低维空间来学习文本的分布式表示。PTE算法能够从未标记数据和标记信息中提取词共现信息，适用于特定的分类任务。通过此算法学习到的单词表示不仅更健壮，也更适合于特定的任务。

在这里插入图片描述

贡献：

提出了一种高效的算法“PTE”，它通过将异构文本网络嵌入低维空间来学习文本的分布式表示。

问题定义

定义1。（word-word Network）

表示为G $_w$ $_w$ =（V，E $_w$ $_w$ ），捕获未标记数据的本地上下文中的词共现信息。V是单词的词汇表，e $_w$ $_w$ 是单词之间的一组边。单词v $_i$ 和v $_j$ 之间的边的权重，定义为两个单词在给定窗口大小的上下文窗口中同时出现的次数。

定义2。（Word-Document Network）

表示为G $_w$ $_d$ =（V∪D，E $_w$ $_d$ ），是一个二分网络，其中D是一组文档，V是一组单词。e $_w$ $_d$ 是单词和文档之间的一组边。单词v $_i$ 和文档d $_j$ 之间的权重w $_i$ $_j$ 简单地定义为文档d $_j$ 中v $_i$ 出现的次数

定义3。（Word-Label Network）

示为Gwl=（V∪L，E $_w$ $_l$ ），是一个捕获类别级单词共现的二分网络。L是一组类标签，V是一组单词。e $_w$ $_l$ 是单词和类之间的一组边。定义词v $_i$ 与c $_j$ 类之间的边的权重为：
在这里插入图片描述
，其中n $_d$ $_i$ 是文档d中单词v $_i$ 的词频，l $_d$ $_i$ 是d文档的类标签

定义4。（Heterogeneous Text Network）

三个图共同组成
在这里插入图片描述

二部图网络嵌入

方法：LINE的二阶方法（参考上一篇博客）

异构文本网络嵌入

在这里插入图片描述

文本嵌入

异构文本网络对词在不同层次上的共现进行编码，从未标记数据和标记信息中提取，用于特定的分类任务。因此，通过嵌入异构文本网络学习的单词表示不仅更健壮，而且更适合该任务。一旦学习了单词向量，就可以通过简单地平均该文本中单词的向量来获得任意文本的表示。
一段文本的向量表示d=w1w2···，wn可以计算为
在这里插入图片描述