交互式技术地图:专利分析与可视化探索
1. 文本分析
在专利分析中,基于引用的分析有助于识别专利之间的关系及其随时间的演变,但它无法为每个轨迹关联标签以创建专利映射。因此,需要对专利集进行数据挖掘,提取主要术语和相关专利簇。
信息检索过程基于一系列标准操作,并与之前的分析流程相结合。具体步骤如下:
1. 将每个专利 $p_i$ 视为文档 $d_i$,从专利文档的摘要、描述和权利要求部分提取文本 $t_i$。
2. 对文档中的每个单词进行词干提取,将其转换为词根形式。
3. 使用停用词列表移除某些术语,或使用预先选择的一组术语进行正向过滤,将文档中的单词流 $s_{ij}$ 转换为新的简化单词流 $s_{ij}^*$。
潜在语义分析(LSA),也称为潜在语义索引(LSI),通过将每个文档转换为特征向量来进行文本分析。特征向量的大小与整个集合中不同单词的数量相同,并收集成矩阵形式。对于包含 $N$ 个元素的文档集和总共 $M$ 个单词,会得到一个 $M\times N$ 的词 - 文档矩阵,其中每个元素 $w_{ij}$ 描述了单词 $j$ 在文档 $i$ 中的权重。权重的选择方式有多种,常见的加权方案是词频 - 逆文档频率(TF - IDF),其计算公式如下:
- 词的相对频率:$t_{f_{i,j}} = \frac{n_{i,j}}{\sum_{k} n_{k,j}}$
- 逆文档频率:$idf_i = LOG\frac{|D|}{|{d_j : t_i \in d_j}|}$
- 权重:$w_{i,j} = t_{f_{i,j}} \cdot idf_i$
然后,使用奇异值分解(SVD)对权重矩阵
超级会员免费看
订阅专栏 解锁全文
986

被折叠的 条评论
为什么被折叠?



