
深度学习
文章平均质量分 84
iterate7
阳春布德泽,咱能生光辉?
百川东到海,不能复西归,
少壮要努力,以免徒伤悲!
展开
-
bert第三篇:tokenizer
文章目录tokenizer基本含义bert里涉及的tokenizerBasicTokenzerwordpiecetokenizerFullTokenzierPretrainTokenizer关系图实操如何训练训练自己中文的tokenizer总结引用tokenizer基本含义tokenizer就是分词器; 只不过在bert里和我们理解的中文分词不太一样,主要不是分词方法的问题,bert里基本都是最大匹配方法。最大的不同在于“词”的理解和定义。 比如:中文基本是字为单位。英文则是subword的概念,例原创 2020-10-08 09:54:24 · 34536 阅读 · 6 评论 -
bert系列第二篇:几个损失函数
目录L1-Loss(MAE)MSE(L2 Loss)nllloss=negative-log-loss那么如何计算呢?能否举个例子crossentropy仔细思考上面的nllloss总结参考文献L1-Loss(MAE)Loss(x,y)=1N∑i(∣xi−yi∣)Loss(x,y)=\frac{1}{N} \sum_{i}( |x_i-y_i|)Loss(x,y)=N1i∑(∣xi−yi∣)简单而言,就是两个向量的绝对值的误差。 默认求平均,可以设置为sum。也是mean absolut原创 2020-10-07 10:01:25 · 8072 阅读 · 1 评论 -
bert系列第一篇: bert进行embedding
bert可以干啥我们理解bert为一个transformer集合,输入是一句话,输出是经过transform的结果。我们了解,深度学习的本质就是抽取核心特征, 这也是bert的核心功能,而且以transformer为主要模块,具有更优秀的attention功能,捕获的特征更为精确和全面。一句话概括, bert就是一个抽取器。输入一句话(词序列),输出抽取后的embedding序列。输入输出输入会加入特殊的[CLS]代表整句话的含义,可以用于分类。input的词help,prince,ma原创 2020-10-04 23:22:33 · 17072 阅读 · 2 评论 -
CNN再思
CNNconvolutional neural network核心步骤则是:卷积、池化对于分类问题,主要的流程:至于卷积和池化则在后面代码介绍,一句话理解:卷积就是抽取某些特征。filter就是卷积核,抽取某类特征,如果想抽取不同的特征,则就是多个filter,抽取之后形成feature map。我们要学习什么参数呢?filter.比如我们有3个filter,每个filter是...原创 2020-03-08 01:09:15 · 219 阅读 · 0 评论 -
如何利用conda建立的虚拟空间在jupyter里开发
conda安装之后使用命令行将anaconda的bin目录加入PATH,根据版本不同,也可能是~/anaconda3/binecho ‘export PATH="~/anaconda2/bin:$PATH"’ >> ~/.bashrc更新bashrc以立即生效source ~/.bashrc如果mac安装了zshrc怎么办,简单修改~/.zshrc文件,在其中添加:sour...原创 2019-08-29 11:29:44 · 310 阅读 · 0 评论 -
StarSpace系列之一:tagspace
问题类型TagSpace 单词、标签的嵌入用途: 学习从短文到相关主题标签的映射,例如,在 这篇文章 中的描述。这是一个典型的分类应用。模型: 通过学习两者的嵌入,学习的映射从单词集到标签集。 例如,输入“restaurant has great food <\tab> #restaurant <\tab> #yum”将被翻译成下图。(图中的节点是要学习嵌入的实体,图...原创 2019-04-14 00:32:30 · 1474 阅读 · 0 评论 -
利用gensim进行词向量处理和找到相似词
关于词向量计算方法word2vec加载方法word2vec format;bin;text format;xx.kv结构如何计算相似度有必要norm吗?性能那个更快结果参考文献原创 2019-04-06 12:38:20 · 6287 阅读 · 0 评论 -
bp算法的理解
bp算法又称反向传导算法,英文: back propagation。 我们了解,前向传导,可以根据W,b来计算出隐层、输出层的各个神经元的值以及对应的激活值,最终得到输出。如果输出和我们的目标存在误差,这个误差可以用成本函数表示(loss function),那么我们就需要反向的把这个误差分配到前面的各个传导的过程中,也就是W和B上;我们需要知道每个神经元带来了多少误差,这个影响程度我们用“...原创 2018-03-23 14:03:44 · 4771 阅读 · 1 评论 -
windows Anaconda lightgbm 安装
下载whlhttps://pypi.python.org/pypi/lightgbm/2.0.3安装拷贝到scripts目录下; 运行pip install lightgbn-2.0.3-py2.py3-one-win_am64.whl 结果如图: 验证import lightgbm as lgb参考: https://pypi.python.org/pypi/lightgbm/2.0.3原创 2017-12-22 20:23:50 · 9032 阅读 · 3 评论 -
cnn在sentence分类和向量实验
cnn简介其中: 每一个行是一个word2vec的向量。 共n行,代表n个词。 然后卷积运算,窗口是3,4,5。输入层 如图所示,输入层是句子中的词语对应的word vector依次(从上到下)排列的矩阵,假设句子有 n 个词,vector的维数为 k ,那么这个矩阵就是 n×k的。这个矩阵的类型可以是静态的(static),也可以是动态的(non static)。静态就是word ve原创 2017-08-10 20:02:38 · 1445 阅读 · 0 评论 -
LSTM和循环网络RNN学习简记
前馈网络回顾要理解循环网络,首先需要了解前馈网络的基础知识。这两种网络的名字都来自于它们通过一系列网络节点数学运算来传递信息的方式。前馈网络将信息径直向前递送(从不返回已经过的节点),而循环网络则将信息循环传递。在前馈网络中,样例输入网络后被转换为一项输出;在进行有监督学习时,输出为一个标签。也就是说,前馈网络将原始数据映射到类别,识别出信号的模式,例如一张输入图像应当给予“猫”还是“大象”的标签。原创 2017-07-29 11:24:39 · 3491 阅读 · 0 评论 -
神经网络介绍
概述以监督学习为例,假设我们有训练样本集(xi,yi)(xi,yi)(x_i,y_i),那么神经网络算法能够提供一种复杂且非线性的假设模型hW,b(x)hW,b(x)h_{W,b}(x), 它具有参数W,bW,bW,b, 可以以此参数来拟合我们的数据。 为了描述神经网络(neural networks),我们先从最简单的神经网络讲起, 这个神经网络仅由一个“神经元”构成,以下就是这个“神经元...原创 2017-07-24 18:23:40 · 1190 阅读 · 0 评论