能源领域颠覆性技术识别与自然语言处理中的迁移学习研究
1. 能源领域颠覆性技术识别
在能源领域,为了识别潜在的颠覆性技术,需要从多个数据源收集和分析数据。以下是数据的来源和描述:
| 类型 | 数据来源 | 数据检索策略 | 数据量 | 用于聚类分析的数据量 | 数据语言 | 检索时间 |
| — | — | — | — | — | — | — |
| 论文 | WOS 论文数据库 | WC = Nuclear Science Technology OR WC = Energy Fuels,SCI - EXPANDED | 96,5126 | 6338(高被引论文和热点论文) | 英语 | 2019 年 8 月 19 日 |
| 专利 | DIpatent 数据库 | CPC = ((YO4) OR (Y02E)) | 702,499 | 7760(过去十年的五重专利家族) | 英语 | 2019 年 9 月 3 日 |
| 项目 | 美国 ARPA - E 网站 | 抓取所有数据 | 845 | 809(排除无公开细节的项目) | 英语 | 2019 年 12 月 19 日 |
由于项目数据量不足以训练 word2vec 模型,且项目文本写作与专利文本相似,因此使用能源专利 word2vec 模型对项目数据进行向量化。word2vec 模型训练的主要参数如下:
- 词向量维度:300
- 最小词频:5
- 窗口(句子中当前词和预测词的最大距离):10
- 训练算法:Skip - Gram 算法
考虑到文本长度的不一致性,使用 TF - IDF 提取每个待聚类文本的前 30 个关键词,并基于
超级会员免费看
订阅专栏 解锁全文
56

被折叠的 条评论
为什么被折叠?



