53、交互式技术地图：专利分析与可视化探索

最新推荐文章于 2025-11-04 01:11:11 发布

net55

最新推荐文章于 2025-11-04 01:11:11 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：商业信息系统的全景解读文章标签：专利分析文本分析潜在语义分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/net55/article/details/153400847

商业信息系统的全景解读专栏收录该内容

97 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

交互式技术地图：专利分析与可视化探索

1. 文本分析

在专利分析中，基于引用的分析有助于识别专利之间的关系及其随时间的演变，但它无法为每个轨迹关联标签以创建专利映射。因此，需要对专利集进行数据挖掘，提取主要术语和相关专利簇。

信息检索过程基于一系列标准操作，并与之前的分析流程相结合。具体步骤如下：
1. 将每个专利 $p_i$ 视为文档 $d_i$，从专利文档的摘要、描述和权利要求部分提取文本 $t_i$。
2. 对文档中的每个单词进行词干提取，将其转换为词根形式。
3. 使用停用词列表移除某些术语，或使用预先选择的一组术语进行正向过滤，将文档中的单词流 $s_{ij}$ 转换为新的简化单词流 $s_{ij}^*$。

潜在语义分析（LSA），也称为潜在语义索引（LSI），通过将每个文档转换为特征向量来进行文本分析。特征向量的大小与整个集合中不同单词的数量相同，并收集成矩阵形式。对于包含 $N$ 个元素的文档集和总共 $M$ 个单词，会得到一个 $M\times N$ 的词 - 文档矩阵，其中每个元素 $w_{ij}$ 描述了单词 $j$ 在文档 $i$ 中的权重。权重的选择方式有多种，常见的加权方案是词频 - 逆文档频率（TF - IDF），其计算公式如下：
- 词的相对频率：$t_{f_{i,j}} = \frac{n_{i,j}}{\sum_{k} n_{k,j}}$
- 逆文档频率：$idf_i = LOG\frac{|D|}{|{d_j : t_i \in d_j}|}$
- 权重：$w_{i,j} = t_{f_{i,j}} \cdot idf_i$

然后，使用奇异值分解（SVD）对权重矩阵

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。