文本的图提取与分析技术详解
1. 从文本中提取图
当核心数据集为文本时,一个主要挑战是图从何而来。答案通常取决于问题领域,一般来说,在半结构化或非结构化数据中搜索结构元素会由特定上下文的分析问题引导。
为了将这个问题分解成更小的子步骤,提出了一个简单的文本图分析工作流:
graph LR
A[问题陈述] --> B[确定实体及其关系]
B --> C[创建图提取方法]
C --> D[使用语料库、元数据等提取和链接数据]
D --> E[生成图]
E --> F[图分析(聚类、结构分析等)]
F --> G[输出新图]
G --> H[检查结果并迭代方法和模式]
在这个工作流中,首先使用问题陈述来确定实体及其关系。然后基于此模式创建图提取方法,该方法利用语料库、元数据、语料库中的文档以及文档中的短语或标记来提取和链接数据。提取方法是一个批量处理过程,可在语料库上运行并生成图,该图可写入磁盘或存储在内存中进行分析处理。图分析阶段对提取的图进行计算,如聚类、结构分析、过滤或查询,并返回一个新图作为应用程序的输出。检查分析过程的结果可以让我们迭代方法和模式,根据需要提取或合并节点或边组,以确保结果准确可用。
2. 创建社交图
以新闻文章语料库为例,若关注不同新闻媒体报道的差异,可能构建与出版物标题、作者姓名和联合供稿来源相关的图元素;若目标是聚合多篇文章中对单个实体的多次提及,网络可能会编码诸如敬称等称呼形式以及人口统计细节。假设目标是了解文档中
超级会员免费看
订阅专栏 解锁全文
1308

被折叠的 条评论
为什么被折叠?



