知识编码与神经网络解读
1. 知识的定义与图表示
1.1 知识评估数据集
有一种评估数据集成为了事实上的标准。与托福测试不同,该数据集中的大多数术语在语料库的各种形式中频繁出现,不过最后一个单词是从整个词汇表中随机选取的。由于其侧重于词空间结构,这种评估更有利于分散的词表示。
1.2 图表示的应用与挑战
图作为一种数据结构,因其多功能性在计算机科学及相关学科中得到广泛应用。图嵌入是另一种基于对象分布对其进行编码的方法。该领域的基本问题是找到一种有效的方法来捕获或编码网络结构,以便人工智能模型能够轻松利用。
过去,机器学习方法基于用户定义的标准提取图的结构信息特征,例如度统计、核函数,或精心设计特征来衡量局部邻域结构。然而,这些方法存在局限性,因为手工设计的特征缺乏灵活性(在学习过程中无法调整),并且开发这些特征既困难又昂贵。
近年来,出现了许多自动学习将网络结构编码到低维向量空间 (R^d) 的系统,采用了基于深度学习和非线性降维的技术。目标是优化这种映射,使学习空间中的几何关系能够复制原始图的结构。与早期研究相比,表征学习算法在处理提取图的底层结构信息这一挑战时存在显著差异。过去,这个问题是作为预处理阶段来解决的,需要手动构建统计量来提取底层结构。而表征学习方法将这一挑战本身视为一个机器学习任务,采用数据驱动的策略来发现封装图结构的嵌入。
图表示个体单元(节点)之间的交互(边),可用于建模广泛的现象,包括社交网络、分子图结构、生物蛋白质 - 蛋白质网络、推荐系统等。由于图的普遍性,它们构成了许多系统的骨干,使得关于交互实体的关系知识能够被有效存储和检索。
超级会员免费看
订阅专栏 解锁全文
37万+

被折叠的 条评论
为什么被折叠?



