- 博客(35)
- 收藏
- 关注
原创 数据可视化——词语embedding的可视化
词语embedding的可视化在可视化我找到了一个宝藏网站http://projector.tensorflow.org/使用方法点击load载入自己的数据数据需要tsv格式,第一个文件是embedding结果,第二个是标签,按照提示格式载入在下面还可以选择向量降维的模式最后结果上述内容详见:https://blog.youkuaiyun.com/qq_41824131/article/details/107057803...
2020-07-01 15:05:31
1656
2
原创 子空间——bert和xlnet对关键词embedding
bert和xlnet对关键词embeddingbert的原理我在第一篇论文介绍了,不赘述下面写一下我对bert embedding 和XLNet embedding的理解与两者之间的不同bert embedding可选择的预,L表示的是transformer的层数,H表示输出的维度,A表示mutil-head attention的个数训练模型,每一层transformer的输出值,理论上来说都可以作为句向量,但是到底应该取哪一层呢,根据hanxiao大神的实验数据,最佳结果是取倒数第二层,最后一层的
2020-07-01 15:04:21
458
原创 子空间——使用pke包提取关键词遇到的依赖问题
使用pke包提取关键词遇到的依赖问题按照pke官方文档说明使用pke需要以下几个依赖但是因为是外网资源下载不下俩老是报错,去官网直接下载:https://github.com/nltk/nltk_data1.放入报错提示的任一文件夹下就OK,oh,记得这里将 packages 重命名成 nltk_data。2.找到 nltk-data 中 punkt 所在目录,这里要进入 punkt.zip 将 punkt 文件拖出来,与 punkt.zip 同级,然后 punkt.zip 就可以删掉啦,于是才
2020-07-01 15:01:51
446
原创 子空间——关键词的相似度计算
关键词的相似度计算关键词的相似度刚开始采用的是杰卡德相似度,但是会出现非常多0的情况,这个情况不太利于区分关键词之间的相似度。所以进行改进变为向量化关键词后算embedding的余弦相似度。ELMO原理尝试ELMO模型进行单词向量化ELMO模型的基本组成单元为lstm,输入门、遗忘门、输出门等计算公式如下图ELMO是双向lstm语言模型,第一个是使用了多层LSTM,第二个是增加了后向语言模型,不仅可以前文预测后文,也增加了后文预测前文的内容。elmo使用的双向lstm语言模型,论文中简称b
2020-07-01 14:59:32
466
原创 子空间——textrank算法的关键词提取
textrank算法的关键词提取textrank虽然没有用在任务中提取关键词,但是还是做了来对比一下其他两个关键词算法的效果,在这里也简单说一下。思想1.如果一个单词出现在很多单词后面的话,那么说明这个单词比较重要2.一个TextRank值很高的单词后面跟着的一个单词,那么这个单词的TextRank值会相应地因此而提高3.通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题,网页之间的链接关系即
2020-07-01 14:57:49
267
原创 子空间——WINGNUS算法提取关键词
WINGNUS算法提取关键词WINGNUS算法提取关键词WINGNUS算法提取关键词WINGNUS我觉得可以视为kea算法的改进版本,他研究了语言逻辑,不止关注了文章全局信息也关注了局部重要的信息WINGNUS算法论文写到经过统计发现一般句子比较重要的部分都出现在句首,标题等地方,所以不使用整个文档文本作为输入,而是从完整到最小的不同层次上缩减了输入文本,注重重要的地方。1.和kea讲到的一样首先根据规则选取候选词2.提取关键词特征,在tf-idf特征的基础上添加了单词偏移,字体属性,单词短语长
2020-07-01 14:51:44
257
原创 子空间——kea算法提取关键词
kea算法提取关键词kea算法提取关键词kea算法提取关键词上一篇文章讲到基于bert的关键词提取,关键字出来的太少,需要一些其他方法增加关键词,我首先选择了kea算法kea算法Kea使用词法方法识别候选关键词,为每个候选关键词计算特征值,并使用机器学习算法预测哪些候选关键词是好的关键词。1.首先基于一定的规则选出候选关键词,作者在文章中提出三个规则:(1) Candidate phrases are limited to a certain maximum length (usually th
2020-07-01 14:48:01
807
原创 子空间——面向子空间基于规则嵌入的论文相似性比较
面向子空间基于规则嵌入的论文相似性比较-ysl创新实训个人过程记录我负责的部分是论文摘要基于语义的子空间关键词提取并且比较关键词相似度,采用bertfortokenclassification进行关键词提取。简单介绍一下bert首先需要知道transformer,和大多数seq2seq模型一样,transformer的结构也是由encoder和decoder组成。不一样的是多头注意力机制扩展了模型专注于不同位置的能力,给出了注意力层的多个“表示子空间”。输入向量添加了位置编码,变为基于时间步的词嵌入
2020-07-01 14:38:52
339
1
原创 数据可视化——词云可视化
对不同年份、不同会议的论文关键词进行词云可视化。创新实训记录9数据预处理可视化数据预处理首先根据数据集生成所需要的年份列表、会议列表、关键词列表。# 年份列表file_years = 'D:/大学资料/大三下/项目实训/code+data/ACM数据集/years.txt'fyears = open(file_years,'r')years = []for line in fyears: year = line.strip() years.append(year)print
2020-07-01 14:35:45
1595
原创 数据可视化——不同年份上论文集合数据的可视化
不同年份上论文集合数据的可视化不同年份上论文集的个数(柱状图)数据预处理数据可视化不同年份上论文集的平均引用量、被引用量(柱状图)数据预处理数据可视化不同年份上论文的引用量、被引用量(盒须图)数据预处理数据可视化展示论文集合上的一些统计信息,比如,展示数据集中不同年份上论文集的个数,以及平均引用量、被引用量。不同年份上论文集的个数(柱状图)数据预处理读取years.txt,将年份对应的总论文数放入一个字典。# 读取years.txt,将年份对应的论文数放入一个字典file_years = 'D
2020-07-01 14:34:07
1432
原创 数据可视化——关系图可视化
关系图可视化数据预处理可视化数据预处理首先需要两个基本的数据,title对应论文标题,id_dic是论文id与索引的对应关系。# 获取titlefilepath0 = 'D:/大学资料/大三下/项目实训/code+data/ACM数据集/nodes.txt'f0 = open(filepath0,'r')title = []for line in f0: lines = line.strip('\n') title.append(lines)print(title[:3])
2020-07-01 14:32:05
2028
原创 数据可视化——关系图可视化
关系图可视化数据预处理可视化数据预处理首先需要两个基本的数据,title对应论文标题,id_dic是论文id与索引的对应关系。# 获取titlefilepath0 = 'D:/大学资料/大三下/项目实训/code+data/ACM数据集/nodes.txt'f0 = open(filepath0,'r')title = []for line in f0: lines = line.strip('\n') title.append(lines)print(title[:3])
2020-07-01 14:08:32
5621
1
原创 数据可视化——形式思考+子空间标签可视化实现
数据可视化可视化形式思考子空间标签数据展示实现数据预处理可视化实现及效果展示可视化形式思考一、论文集合层面:① 不同的会议、年份形成不同的集合,平均被引用量(柱状图)② 不同的会议、年份形成不同的集合,平均引用量(柱状图)③ 不同的会议、年份形成不同的集合,摘要词云或关键词词云二、单篇论文层面:① 摘要在每个子空间上(0-4)的数量(柱状图)② 论文引用了哪些论文(图的形式)③ 论文被哪些论文所引用(图的形式)子空间标签数据展示实现数据预处理思路:首先根据sentence_TextC
2020-07-01 14:06:59
292
原创 数据预处理——补充数据集
补充数据集补充数据集补充数据集即找到每篇论文相对应的year、venue、quote数据,以相同的格式(每行对应一篇论文)保存到txt文件中。前两天尝试了从OAG官网下载数据,然后从本地数据集中查找对应的论文,但是发现OAG提供的论文数据量太大,针对每一篇论文去查找速度有些慢。 所以转变思路,使用论文检索工具,搜索每一篇论文的题目,然后网址上就会展示论文的各种信息。这里使用的是google scholar国内镜像版,论文信息如下图: 首先我们先新建一个test.txt,里面包含30篇论文的
2020-07-01 12:54:09
925
原创 数据预处理——数据集分析
关于数据集最初的ACM论文数据集中,包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类,以及论文摘要中句子级别的子空间标记(研究背景、研究问题、贡献、方法、实验)。但是没有论文的year,venue属性,即论文发表的年份和发表的期刊或会议信息,所以需要再去爬取或者直接搜集数据。第一个想法是直接搜集论文数据集,然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文
2020-07-01 12:48:43
5969
原创 可视化展示——报错与解决方案
目录报错与解决方案1.context里面传输的需要是列表,否则会导致跳转界面的不显示:2.使输出一行一个:3.进度卡在0,不进行,也不报错问题:4.报错&解决:(禁止跨域是浏览器的安全限制机制)5.报错&解决:6.报错&解决:7.报错&解决:8.Django一个表单对应多个按钮解决方案报错与解决方案1.context里面传输的需要是列表,否则会导致跳转界面的不显示:先前传的是一个字符串导致一直前端遍历的时候获取不到相关内容!2.使输出一行一个:原始:现在:
2020-06-25 19:51:47
864
原创 可视化展示——界面展示&词云效果添加
目录界面展示1.预测结果效果:2.词云效果添加;界面展示 django界面 pyechart bootstrap 1.预测结果效果:2.词云效果添加;代码:##词云-------------------------------------- # 年份列表 file_years = 'choose_paper/data/yea
2020-06-25 19:48:42
1172
原创 可视化展示——模型融合
模型融合模型融合界面的调整出现的错误代码:模型融合1.将队友写好的模型代码放入django文件夹中:(如下),并在view文件中进行调用界面的调整1.可选择只输入年份/会议来获得详情和分析结果:详情(展示的是满足条件的论文名,一行一个):分析:(这里由于模型还有一点问题,训练速度慢,所以暂时用一些数据代替)2.同理完善下面的选项:出现的错误1.路径不对:(需要将队友的所有文件的路径进行修改使之满足django运行)修改如下:(举例)2.运行速度慢,很久都不能显示结果,经过
2020-06-25 19:45:49
900
原创 可视化展示——论文相似度分析页面设计
记录论文相似度分析页面设计:colab运行Deep Keyphrase Extraction using BERT论文相似度分析页面设计:实现导航栏的效果:(点击研究背景、研究问题、贡献、方法、实验可以分别得到其结果)(里面的内容只是为了简单的展示,是以前的图,后期根据队友的结果需要更改)代码目录:代码:(只展示了其中一个)<!DOCTYPE html><html><head> <meta charset="UTF-8">
2020-06-25 19:44:23
855
原创 可视化展示——实现论文引用关系动图展示
实现论文引用关系动图展示效果代码:遇到的问题:将队友获取的year,venues文件导入django:解决时间选择器不显示问题:效果实现将队友处理好的用pyecharts展示出来的论文引用之间的关系(动态图)展示到web界面上:首先,到pyecharts官方文档学习怎么和django后台进行融合:https://pyecharts.org/#/zh-cn/intro代码:思路: 在django 的view视图中,将生成的动态图的json文件传到前端,从而从前端进行展示。paper_d
2020-06-25 17:33:17
2584
原创 可视化展示——查询论文
实现输入论文名,查询论文的相关信息:代码:views.py文件:def choose_detail(request): node= request.POST['node'] artical="" author="" abstract="" affiliation="" IndexTerm="" keyword="" inlink="" outlink="" GeneralTerm="" num=0 kk
2020-06-25 17:32:26
410
原创 可视化展示——论文详情页面的展示
论文详情页面的展示展示界面具体代码:展示界面1.改善了页面左侧的部分“论文列表”,这里将展示选择好论文集合以后的论文集合的论文的标题,初步设想是点开标题后可以查看论文的更详细的内容的分析。(由于此时数据还没完全整理好,所以这只是部分acm数据集,我拿来做实验)2.实现点击上图左侧的论文标题,实现查看相关论文的具体内容的界面,并且可以返回到上图所示界面,从而方便查看其他的论文的具体内容。3.修改上图所示的inlinks和outlinks文件的表示形式,使文件展示的时候展示的inlinks和ou
2020-06-25 17:31:06
1115
原创 可视化处理——数据导入数据库
数据处理|加入数据库|报错与解决acm数据处理通过django将数据添加到数据库中:报错&解决:acm数据处理1.将articles.txt文件的【SUCC】去掉,只保留论文的idwith open('./articles.txt', 'r',encoding='utf-8') as f: for line in f.readlines(): line=line.strip('[SUCC]') with open('./articles2.txt',
2020-06-25 17:30:17
796
原创 可视化展示——输入界面
输入界面: 这个界面用来选择论文集合,在论文集合选择完成之后,分析出论文集合的一些性质,比如平均reference引用数目,平均字数等等论文集合的特征,并用柱状图等形象化表示出来。代码如下:<!DOCTYPE html><html><head> <meta charset="utf-8"> <title>基于规则嵌入的论文比对系统</title> <script src="https:/
2020-06-25 17:28:31
908
原创 可视化展示——Django 初试
Django 初试创建第一个项目 hellowordDjango+Vue.js构建项目尝试django+bootstrap形式创建第一个项目 helloword打开命令行(cmd),cd 到一个你想放置你代码的目录,然后运行以下命令:django-admin startproject helloword项目目录:helloword/ manage.py helloword/ __init__.py settings.py
2020-06-25 17:26:49
274
原创 可视化展示——初识Element UI vue
初识Element UI vue前端界面的探索Vue & Element UI安装vue-cli3.x 加 ElementUI创建及运行项目前端界面的探索Element UI是基于vue.js的一款桌面端组件库,里面有许多比较精美的前端组件。Vue & Element UI安装首先需要安装npm(node.js是随同NodeJS一起安装的包管理工具),首先先来了解一下这三个东西是干什么的:npm: Nodejs下的包管理器。webpack: 它主要的用途是通过Co
2020-06-25 17:23:51
633
原创 可视化展示——web展示页面
web展示页面展示界面展示界面1.这个界面用来选择论文集合,在论文集合选择完成之后,分析出论文集合的一些性质,比如平均reference引用数目,平均字数等等论文集合的特征,并用柱状图等形象化表示出来。2.页面左侧的部分“论文列表”,这里将展示选择好论文集合以后的论文集合的论文的标题,初步设想是点开标题后可以查看论文的更详细的内容的分析。输入界面:3.实现点击上图左侧的论文标题,实现查看相关论文的具体内容的界面,并且可以返回到上图所示界面,从而方便查看其他的论文的具体内容。4.输入相关的论文
2020-06-25 02:17:31
7267
原创 基于规则嵌入的论文比对系统任务规划
任务规划数据整理/数据爬取web搭建核心算法实现refference(全局的特征)ccs分类(需要构建一棵树)(全局的特征)每个子空间(每个句子)的关键词(局部的特征)构建训练集设计模型数据整理/数据爬取一个人负责因为我们手里的数据集缺少年份以及会议或者期刊的标识,为了便于后续的web展示,这里需要自己爬取或者根据其他比较全的数据集来完善一下我们手上的ACM 数据集的数据信息,另外在此基础上做一些柱状图的可视化展示。web搭建一个人负责界面需要实现venue、年份或者某篇具体论文的选择,从而根据
2020-06-25 02:16:16
159
原创 基于规则嵌入的论文比对系统工作综述
基于规则嵌入的论文比对系统(1)项目介绍项目目标项目背景技术创新工作内容预期成果项目介绍项目目标该系统可以对论文集合(比如某个会议某年发表的论文)进行比对,输出相似的论文对集合。项目背景学术论文是用科学语言记录下来的阶段性知识成果,是学术交流的重要方式。论文摘要高度概括了研究背景和问题、创新发现和实验验证等主要内容,是判断论文质量的首要依据。论文检索实际应用中,科研人员为了筛选相关工作,往往从摘要入手关注论文在不同子空间上的相似性,如是否面向相同的研究问题、是否用了相同的技术手段等。针对特定论文集
2020-06-25 02:14:54
264
1
原创 依据CCS分类建树(简单方案)
依据CCS分类建树(方案一)CCS分类ACM Computing Classification System(CCS)2012 ACM计算分类系统已开发为一种多层次的本体,可以在语义Web应用程序中使用。它替代了1998年的ACM计算分类系统(CCS)的传统版本,该版本已成为计算领域的事实上的标准分类系统。它已集成到ACM数字图书馆的搜索功能和可视主题显示中。它依赖于语义词汇作为类别和概念的唯一来源,它反映了计算机科学的最新水平,并且随着未来的发展而接受结构性变化。 ACM在可视显示格式内提供了一种
2020-06-25 01:54:54
1526
原创 对到最近公共父节点的距离的算法的研究
CSS分类(需要构建一棵树)(全局的特征)要求:输入两篇论文的名字(或其他标识符)就可以获得这两篇论文的分类所在节点到公共父节点的最短距离。首先我们研究树中求得两个节点X,Y到最近公共父节点的距离。方法一:暴力求解思路:利用BFS或者DFS,从一个节点出发,沿着树的结构一层层查找,知道到达另一个节点,此时的距离为最短距离。分析:时间复杂度O(n)O(n)O(n)方法二:简单LCA思路:d=d(x,root)+d(y,root)−2∗d(z,root)d=d(x,root)+d(y,root)
2020-06-25 01:53:28
216
原创 基于规则嵌入的论文比对系统(六)
基于规则嵌入的论文比对系统--算法构建训练数据+模型搭建构建训练数据建模输入论文id,输出五个子空间的分布情况到公共父节点的最短距离CSS分类(需要构建一棵树)(全局的特征)论文 jaccard相似度构建训练数据+模型搭建构建训练数据 之前我们已经分别得到了五个子空间上的训练集的论文编号的样本对(共200个,100个正样本,100个负样本)接下来需要将根据得到的论文编号的样本对进行序列化处理:index_list=list(word_index.keys()) #子空间0的100个正样本的句
2020-06-18 11:21:49
202
原创 基于规则嵌入的论文比对系统(五)
基于规则嵌入的论文比对系统--算法处理子空间sentence的序列化处理word2vec生成词向量构建向量矩阵根据子空间对论文进行筛选,形成5个集合在五个子空间上创建训练集计算文本相似度的函数计算列表中第二大的数筛选在每个子空间挑出100个作为正样本对,100个作为负样本对子空间sentence的序列化处理word2vec生成词向量 根据论文的所有abstracts的内容,生成词向量,存到一个txt文件里,便于后续加载和处理。29568 256the 0.035862766 0.05651933
2020-06-18 10:44:03
774
原创 基于规则嵌入的论文比对系统(四)
数据集爬取及处理子空间标签数据处理与展示数据预处理可视化实现及效果展示关系图可视化:数据预处理可视化不同年份上论文集的个数(柱状图)不同年份上论文集的平均引用量、被引用量(柱状图)不同年份上论文的引用量、被引用量(盒须图)子空间标签数据处理与展示数据预处理思路:首先根据sentence_TextCNN.json构建一个list,list的元素类型是字典,每个元素对应一篇论文。字典格式:其中,paper_id是论文的id,0-4对应五个子空间,分别是研究背景、研究问题、贡献、方法、实验。0-4对应的
2020-06-18 10:28:35
214
原创 基于规则嵌入的论文比对系统(三)
论文展示页面:展示界面1.这个界面用来选择论文集合,在论文集合选择完成之后,分析出论文集合的一些性质,比如平均reference引用数目,平均字数等等论文集合的特征,并用柱状图等形象化表示出来。2.页面左侧的部分“论文列表”,这里将展示选择好论文集合以后的论文集合的论文的标题,初步设想是点开标题后可以查看论文的更详细的内容的分析。输入界面:3.实现点击上图左侧的论文标题,实现查看相关论文的具体内容的界面,并且可以返回到上图所示界面,从而方便查看其他的论文的具体内容。4.具体代码见个人博客
2020-06-15 09:25:07
215
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人