53、交互式技术地图:专利分析与可视化探索

交互式技术地图:专利分析与可视化探索

1. 文本分析

在专利分析中,基于引用的分析有助于识别专利之间的关系及其随时间的演变,但它无法为每个轨迹关联标签以创建专利映射。因此,需要对专利集进行数据挖掘,提取主要术语和相关专利簇。

信息检索过程基于一系列标准操作,并与之前的分析流程相结合。具体步骤如下:
1. 将每个专利 $p_i$ 视为文档 $d_i$,从专利文档的摘要、描述和权利要求部分提取文本 $t_i$。
2. 对文档中的每个单词进行词干提取,将其转换为词根形式。
3. 使用停用词列表移除某些术语,或使用预先选择的一组术语进行正向过滤,将文档中的单词流 $s_{ij}$ 转换为新的简化单词流 $s_{ij}^*$。

潜在语义分析(LSA),也称为潜在语义索引(LSI),通过将每个文档转换为特征向量来进行文本分析。特征向量的大小与整个集合中不同单词的数量相同,并收集成矩阵形式。对于包含 $N$ 个元素的文档集和总共 $M$ 个单词,会得到一个 $M\times N$ 的词 - 文档矩阵,其中每个元素 $w_{ij}$ 描述了单词 $j$ 在文档 $i$ 中的权重。权重的选择方式有多种,常见的加权方案是词频 - 逆文档频率(TF - IDF),其计算公式如下:
- 词的相对频率:$t_{f_{i,j}} = \frac{n_{i,j}}{\sum_{k} n_{k,j}}$
- 逆文档频率:$idf_i = LOG\frac{|D|}{|{d_j : t_i \in d_j}|}$
- 权重:$w_{i,j} = t_{f_{i,j}} \cdot idf_i$

然后,使用奇异值分解(SVD)对权重矩阵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值