自然语言处理中基于图的方法应用解析
1. 词图模型(GoW)构建
将文本分类视为图分类问题时,可使用词图模型(GoW)而非传统的N - 元词袋模型(BoW),通过频繁子图挖掘识别对应长距离N - 元组的更具区分性的特征,具体步骤如下:
1. 为集合中的每个文档构建GoW。
2. 对于步骤1中得到的每个图,提取其主核以提高成本效益。
3. 在步骤2得到的图集中找出所有频繁子图大小n。
4. 移除同构子图以减少特征总数。
5. 最后,从剩余文本中提取N - 元特征。
初步概念
- GoW模型 :无向图G表示为G = (V, E),其中V是顶点集,代表文档的唯一术语;E是边集,代表固定大小滑动窗口内术语之间的共现。
- 子图同构 :给定两个图G和H,G和H的同构是G和H的顶点集之间的双射,使得G中的任意两个顶点u和v在G中相邻,当且仅当f(u)和f(v)在H中相邻:f:V(G) → V(H)。
- k - 核和主核 :由图G = (V, E)的顶点子集V’ ⊆ V和边子集E’ ϵ E诱导的子图H = (V’, E’)称为k - 核,其中k是整数,当且仅当H是满足∀ v ϵ V’, deg(v) >= k性质的最大子图。k - 核是一个最大连通子图,其顶点在该子图内的度数至少为k。主核是k值最大的k - 核。
2. GoW的构建
GoW模型的节点是在预处理步骤中使用的唯一单词。通过在这些n个节点之间添加边来构建
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



