- 博客(235)
- 资源 (13)
- 收藏
- 关注
转载 BERT的3个Embedding的实现原理
本文将阐述BERT中嵌入层的实现细节,包括token embeddings、segment embeddings, 和position embeddings.目录概览1 Token Embeddings作用实现2 Segment Embeddings作用实现3 Position Embeddings作用实现4 合成表示概览下面这幅来自原论文的图清晰地展示了BERT中每一个嵌入层的作用:和大多数NLP深度学习模型一样,BERT将输入文本中的每一个词(token)送入token
2021-12-13 19:52:45
3664
原创 loss集合
hinge loss loss=output-output_y+self.margin#contains i=y #remove i=y items loss[torch.arange(0,y.size()[0]).long().cuda(),y.data.cuda()]=0 #max(0,_) loss[loss<0]=0
2021-04-13 21:11:29
339
原创 pytorch应用结构
1 模型类1.1 init()1.2 forward()2 怎么使用2.1 模型类初始化model = Model_Class(args...)2.2 model.train()2.3 model(具体数据),参数是按照forward()来的
2021-02-24 16:16:57
219
转载 pytorch框架的使用
介绍相比TensorFlow的静态图开发,Pytorch的动态图特性使得开发起来更加人性化,选择Pytorch的理由可以参考:https://www.jianshu.com/p/c1d9cdb52548,这里也顺便介绍一下TensorFlow静态图和Pytorch动态图开发的区别:总的来说,在TensorFlow里你只能通过定义数据、网络等,然后直接训练、预测啥的,中间过程到底发生了什么对我们来说都是未知的,只能等待训练完毕后查看结果如何,想要debug都debug不了,于是在学了一段时间以后还是一
2021-02-20 17:38:58
561
原创 torch cpu版本安装
torch安装cpu版本直接从官网安装由于网络问题,安装不成功,所以先把对应的包下载到本地然后再安装https://blog.youkuaiyun.com/Jwenxue/article/details/107899734pip install "torch-1.6.0-cp36-none-macosx_10_9_x86_64.whl" "torchvision-0.7.0-cp36-cp36m-macosx_10_9_x86_64.whl"...
2021-02-20 10:26:31
1706
转载 TensorFlow模型保存和载入方法汇总
目录一、TensorFlow常规模型加载方法 保存模型 加载模型 1.不加载图结构,只加载参数 2.加载图结构和参数 3.简化版本 二、TensorFlow二进制模型加载方法 三、二进制模型制作 四、从图上读取张量 从二进制模型加载张量 从当前图中获取对应张量 从图中获取节点信息 『TensorFlow』第七弹_保存&载入会话_霸王回马回到顶部一、TensorFlow常规模型加载方法保存模型tf.train.Saver...
2021-01-21 15:10:53
411
转载 Key-Value Memory Networks for Directly Reading Documents
前两天在看MemN2N的代码,自己动手又实现了一遍,收获挺多,自己也写了挺多注释,应该对理解有帮助,而且之后的Gate MemNN、KVMemNN等Memory Network都可以在此基础上进行改进,需要的同学自取:caijie12138/Memory-Networksgithub.com前言在Memory Networks这个大家庭中有很多成员,我们介绍了MemN2N,GMemNN(给神经网络增强记忆|一文看懂Gate Memory NN的原理与实现),今天我们来聊聊从阅读文章开始就能回答
2020-12-11 21:16:31
344
转载 知识图谱Multi-hop QA
前言之前的记忆网络BAM模型是取每个实体的two-hop以内的范围作为关系的候选区,因为WebQA数据集里问题基本能在two-hop以内解决,但是这样只是针对具体情况而缺乏泛华性,最近看到一些论文可以解决KBQA中的多跳问题具有一定参考性,并且这些年做多跳的还是比较少的,SimpleQA数据集精度都差不多登顶了(数据及本身有限制),隔壁用GNN系列在Multi-hop阅读理解上做的也是风生水起,KBQA也可以考虑一下多跳的问题了。多跳问题就是问句中包含多个关系甚至多个实体,个人认为一方面可能是用到多个
2020-12-11 21:02:53
1570
转载 Pycharm使用虚拟解释器导入numpy报错:Importing the multiarray numpy extension module failed
错误:Importing the multiarray numpy extension module failed原因:环境变量的问题其中Pycharm虚拟环境变量引用了系统环境变量,而系统环境变量起初并没有引入C:\ProgramData\Anaconda3\Library\bin所以才导致了Pycharm虚拟环境导入numpy失败,原因就在于包混乱,所以在系统环境变量中导入,也一定要导入到bin 级目录才会解决问题。...
2020-12-06 13:39:59
732
原创 好网站
1 论文以及对应codehttps://paperswithcode.com/sotahttps://paperswithcode.com/paper/graph-convolutional-networks-for-text2 论文搜索http://arxiv-sanity.com/3学术论文视频https://vimeo.com/359708144...
2020-11-28 22:44:25
158
转载 知识图谱研究最新综述论文: 表示学习、知识获取与应用
导读】知识图谱一直是学术界和工业界关注的焦点。最近Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu等学者发表了关于知识图谱的最新综述论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》,25页pdf涵盖107篇参考文献,对知识图谱进行了全面的综述,涵盖了知识图谱表示学习、知识获取与补全、时序知识图谱、知识感知应用等方
2020-11-13 15:21:13
6314
原创 课程
1 meta learninghttps://blog.youkuaiyun.com/shine19930820/article/details/108960901
2020-10-09 17:20:27
116
转载 计算机会议的排名
计算机会议的排名AREA: Artificial Intelligence and Related SubjectsRank 1: AAAI: American Association for AI National Conference CVPR: IEEE Conf on Comp Vision and Pattern Recognitio
2020-09-20 18:51:13
1456
原创 tensorflow全链接层
1 denselogits = tf.layers.dense(sent_feature, clf_params["class_num"], name="softmax")2 matmul和biashidden_size = output_layer.shape[-1].valueoutput_weights = tf.get_variable( "output_weights", .
2020-09-11 19:37:06
220
转载 Few-shot learning(少样本学习)和 Meta-learning(元学习)
目录(一)Few-shot learning(少样本学习) 1. 问题定义 2. 解决方法 2.1 数据增强和正则化 2.2 Meta-learning(元学习) (二)Meta-learning(元学习) 1. 学习微调 (Learning to Fine-Tune) 2. 基于 RNN 的记忆 (RNN Memory Based) 3.度量学习 (Metric Learning) 4.方法简单比较 5.未来方向 5.1 更好的 meta-learn
2020-09-10 22:37:42
2053
转载 tensorflow中的loss函数总结
回归和分类是监督学习中的两个大类。自学过程中,阅读别人代码时经常看到不同种类的损失函数,到底 Tensorflow 中有多少自带的损失函数呢,什么情况下使用什么样的损失函数?这次就来汇总介绍一下。一、处理回归问题1. tf.losses.mean_squared_error:均方根误差(MSE) —— 回归问题中最常用的损失函数优点是便于梯度下降,误差大时下降快,误差小时下降慢,有利于函数收敛。缺点是受明显偏离正常范围的离群样本的影响较大# Tensorflow中集成的函数mse =
2020-09-01 14:50:12
4407
原创 bert代码学习
基于官方的https://github.com/google-research/bert if mode == tf.estimator.ModeKeys.TRAIN: train_op = optimization.create_optimizer( total_loss, learning_rate, num_train_steps, num_warmup_steps, use_tpu) logging_hook = tf.train.Logging
2020-08-28 10:50:30
309
原创 word2vec and fasttext操作
1 word2vec训练#coding=utf-8import jiebaimport jieba.posseg as psegimport smart_openimport xlrdimport codecsfrom gensim.models import Word2Vec# 读文件def read_file(): jieba.load_userdict("dic.txt") user_query_segment_list = [] with open("
2020-08-21 23:27:41
466
原创 tensorflow bug
1 ValueError: An initializer for variable kernel of type <dtype: 'string'> is检查下word embedding的dtype,看是否是float32
2020-08-07 14:51:43
281
1
转载 零次学习(zero-shot learning)基本概念
零次学习(zero-shot learning)基本概念每次在实验室做工作汇报的时候,总会把ZSL的基本概念讲一遍,但是每次的效果都不是很好,工作都讲完了,提的第一个问题依然是:ZSL到底是什么?这让我一度认为我的表达能力有问题。。。。。。不过回忆起我第一次接触这个题目的时候,也花了挺长的时间才搞清楚到底在做一件什么事情,那篇入门的文章[1]看了很久才基本看懂。因此,我尽量用最简单的,不带任何公式的方式来讲一下这到底是个什么问题。假设小暗(纯粹因为不想用小明)和爸爸,到了动物园,看到了马,然后爸爸告
2020-05-28 19:37:53
1556
2
转载 tensorflwow pytorch 控制gpu使用量指令
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.333)TensorFlow设置GPU占用量:https://www.cnblogs.com/jiu0821/p/9501665.html1 pytorch设置GPU占用量的指令是哪个?(未解决,)是这个p['momentum'] =0.9么?不是,这个是动量帮助训...
2020-04-05 16:35:29
1069
原创 OIE
https://openie.allenai.org/https://www.jianshu.com/p/a1994336af2dhttps://meta-guide.com/data-processing/etl/open-information-extraction
2020-03-29 19:50:30
244
1
转载 Self-Attention概念详解
一、Self-Attention概念详解Self-Attention详解了解了模型大致原理,我们可以详细的看一下究竟Self-Attention结构是怎样的。其基本结构如下对于self-attention来讲,Q(Query), K(Key), V(Value)三个矩阵均来自同一输入,首先我们要计算Q与K之间的点乘,然后为了防止其结果过大,会除以一个尺度标度,其中为一...
2020-03-15 17:04:52
16483
6
原创 torch语法常见操作
1 降纬a = torch.IntTensor([[1, 2, 3], [11, 22, 33]])b = torch.IntTensor([[4, 5, 6], [44, 55, 66]])c = a.view(3, -1)print(a.shape)print(c.shape)
2020-02-25 10:52:04
1185
转载 GCN
图卷积网络(Graph Convolutional networks, GCN) 简述1 背景卷积神经网络(CNN)的输入是图片等具有欧几里得结构的图结构,也就是这样的图:这样的“图”并不是广义上的“图”。我们经常需要提取广义的具有点和边的图的特征:2 问题描述我们的目标是提取出这种广义图结构的特征,进而完成一些任务,如标签补全等。3 解决思路在问题描述中我...
2020-02-13 22:05:39
5024
原创 匹配相关资源
https://nlp.stanford.edu/projects/snli/https://github.com/RaRe-Technologies/gensim-data/issues/32
2020-01-21 17:12:30
237
转载 treelstm
导读我们一步一步来。先说最基础的RNN结构:公式为:就一个简单的隐层h。但是RNN的缺点是会有梯度爆炸或者梯度消失问题。这里我就不详细解释了。下面推荐阅读有我之前的RNN,LSTM详细讲解,想更深一步了解的可以去看看。因为这个致命的问题,有人提出了LSTM网络,改善了RNN的缺点,我们来回顾下:重新添加了输入门i,输出门o,遗忘门f和记忆单元C,外加之前的一个隐层h(...
2020-01-10 17:18:15
3358
原创 tensorflow loss为nan 梯度截断
global_step = tf.Variable(0, trainable=False)learning_rate = tf.train.exponential_decay(config.base_learning_rate, global_step, decay_steps=config.decay_st...
2019-12-10 23:49:38
573
原创 tensorflow model转为pb文件以及python调用
1 模型转pb# coding=utf-8from tensorflow.contrib.saved_model.python.saved_model.utils import simple_savefrom options import Optionsfrom data_provider import *from collections import Counter, defau...
2019-09-05 22:07:34
2669
2
原创 maven install时跳过test
1、方法在maven install打包时,默认会执行测试方法,如果测试失败则打包失败,所以在打包时可以跳过测试。共有两种方法:(1)命令方式mvn install -Dmaven.test.skip = true(2)配置文件方式在maven构建包依赖配置文件pom.xml的project元素中添加jar包maven-surefire-plugin,并配置。<build&g...
2019-08-13 15:30:48
1615
原创 tensorflow不安装高版本的cuda
conda install -n ziji_py3 tensorflow-gpu=1.4.1 cudatoolkit=8.0saved_model_cli show --dir 1556175193/ --tag_set serve --signature_def serving_default查看cude版本/usr/local/cuda/lib64/
2019-06-13 22:08:56
734
2
原创 python常用
1 字符串中加空格" ".join(list(user_q))2 dic转jsonhjson = json.dumps(stand_q_dic, ensure_ascii=False)单引号变双引号hhjson = json.dumps(hjson, separators=(',', ':'), ensure_ascii=False)3 str转jsonstring...
2019-05-16 20:22:53
492
转载 使用google colab运行RNN网络代码报告错误"ValueError: Object arrays cannot be loaded when allow_pickle=False"
原因是numpy版本太高,降低其版本即可,我是降numpy降到1.13.1使用RNN网络训练IMDB数据集,因本地机器运算速度过慢而选择google colab,代码(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words = 10000)时出现错误错误名为:ValueError: Obje...
2019-05-09 13:47:30
620
知识图谱白皮书2019
2020-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人