- 博客(90)
- 收藏
- 关注
原创 lunix下对conda进行服务器迁移
背景:将conda从一个服务器A上迁移到另一个服务器B上操作:1. 将服务器A上的conda打包成.tar文件;2. 查看服务器A中conda环境的路径,根目录【cd /】下【vim ~/.bashrc】,可以看到:3. 将打包后的tar文件放入服务器B中【/opt/jt/】(按照自己内容修改路径)中,并解压4. 修改服务器B【~/.bashrc】中内容,添加PATH,路径与上面红框一致【export PATH="/opt/jt/miniconda/bin:$PATH"】(按照自己内
2021-03-12 14:38:05
293
原创 python2.7安装pyahocorasick报错:ERROR:Command errored out with exit status 1解决方式
原因:没有python.h头文件解决方式:【yum install python-devel】
2021-03-11 15:59:59
568
原创 lunix安装tornado
【总述】先看外网是不是通的,否则可能一系列报错之后发现,只是因为没通网!1. 直接【pip installtornado】开始报错!!!!联网后成功!!!2. 【python -m pip install tornado】报错!!!!联网后没试!!!查看【Defaulting to user installation because normal site-packages is not writeable】修改方式,看到有将【pip install XXX】改成【python -m pi.
2021-03-09 17:39:21
286
转载 rm: cannot remove ‘SRR649427/.nfs00000014034ad01f0000011c‘: Device or resource busy
转自:https://www.jianshu.com/p/0e42a76fc90cinux rm命令无法删除目录,显示Device or resource busy:[yangkang@]$ rm -r SRR649427rm: cannot remove 'SRR649427/.nfs00000014034ad01f0000011c': Device or resource busyrm: cannot remove 'SRR649427/.nfs00000014034ad02000000
2021-03-04 15:39:15
267
1
原创 6. Bert
https://blog.youkuaiyun.com/jiaowoshouzi/article/details/89073944目录6.1 bert是什么?6.2 bert改进点6.2.1 输入表示6.2.2 Masked Language Model6.2.3 Next Sentence Prediction(NSP)6.2.4 fine-tuning6.2.5 bert优缺点6.1 bert是什么?Bert是一个预训练模型。那什么是预训练模型呢?简单举例如下:.
2021-02-19 10:36:43
427
1
原创 5. Transformer
Transformer也是一种encoder-decoder的结构,但是摒弃了传统encoder-decoder模型必须结合CNN或RNN的固有模式,选择只用上面介绍的attention。这种方式的原因在于:以RNN举例,RNN在训练过程中,后一时刻的参数与前一时刻有关,需要不断的按照顺序进行迭代才能进行下一步操作,导致效率低下。此外,RNN模型中涉及到的参数量也很多~~因此,transformer的主要目的在于:减少计算量和提高并行效率的同时,不损害最终的实验结果。那么transformer模
2021-02-18 15:35:15
256
1
原创 4. Attention注意力机制(2017年提出)
在seq2seq结构中,encoder把所有的输入序列都编码成一个统一的语义向量context,然后再由decoder解码。但是由于context包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈,如机器翻译问题,当要翻译的句子比较长时,一个context可能存不了那么多信息,就会造成精度下降。除此之外,如果按照上述方式实现,只用到了编码器的最后一个隐藏层状态,信息利用率低。所以要改进seq2seq结构,最好的切入角度就是:利用encoder所有隐藏层状态解决context长度限制...
2021-01-11 16:10:11
795
原创 3. Seq2seq(2014年提出)
虽然RNN\LSTM\GRU可以获取上下文之间的关系,但是对于一些问题缺不太适用,如翻译(摘要、问答、对话等),我们不能要求中英文翻译中,中文句子的第一个词与英文句子的第一个词的长度一致,甚至不能要求对应的含义是一样的。对于这种RNN等不能解决的问题,可以使用两个RNN(encoder RNN + decoder RNN)拼接成的seq2seq来解决,如下图所示。【提醒】 seq2seq只是一种encoder-decoder的结构,这里也只是选择基于RNN的seq2seq进行简单的介绍,并不是说
2021-01-05 18:32:25
651
原创 2. RNN/LSTM/GRU
2.1RNN(循环神经网络)RNN是一种序列模型,会有一定的记忆单元,能够记住之前的历史信息,从而可以建模上下文相关的一些语义。RNN中的记忆单元可以记住当前词之前的信息。所以,RNN的主要用途是处理和预测序列数据,来源则是为了刻画一个序列当前的输出和之前信息的关系。不同于CNN每层之间的节点是无连接的,RNN隐藏层之间的结点是有连接的,隐藏层的输入不仅可以作为输入层的输出,还包含上一时刻隐藏层的输出。基本结构图如下:典型结构图如下:x是神经网络的输入,U是输入层到隐藏层之间的.
2021-01-04 10:02:30
508
1
原创 1. Word Embedding
Word Embedding(将文本转换成适用于计算机的语言)机器无法直接理解输入的文本信息,所以需要先将文本信息转换成机器可以读懂的语言,这就涉及到编码部分 - - word embedding。Word embedding的主流有两种:(https://blog.youkuaiyun.com/savinger/article/details/89308831)(1)基于频率的Word embedding:TF-IDF vector、count vector、co-occurence vector;
2020-12-30 17:56:55
190
原创 Word embedding 到 Bert 历程(word embedding、RNN\LSTM\GRU、seq2seq、attention、transformer、bert)
下述内容是Word embedding 到 Bert 的主要流程,绿框是发展历程,蓝框是对应的简单介绍,详细内容参见后续介绍。
2020-12-30 17:44:01
433
原创 Recent Advances in Neural Question Generation(NQG综述)
Recent Advances in Neural Question Generation概述主要从NQG的语料库、方法、评估方法进行研究。背景介绍QG:问题生成。根据各种输入内容(文本、数据库、语义表示等)自动生成问题的任务。 2. 现实意义:教育方面:形成良好的问题对于评估学生知识和激发自主学习至关重要;同时,QG也可以对课程材料进行评估、应用于智能辅导系统。 对话系统:发起对话或从用户输入中获取信息。 QA、阅读理解:节省构建数据集的人力。NQG主要从三个方面介绍..
2020-11-30 10:50:48
1466
1
原创 《A Deep Generative Framework for Paraphrase Generation》-- 总结
一、研究背景1. 应用复述生成可以应用很很多场景,像机器翻译、生成摘要等等都涉及到复述生成;而且复述生成还可以扩充语料,更好的进行训练;不仅如此,还可以应用于智能对话等场景,eg:用户的提问方式不可能都是符合预期设定的同种方式,此时就需要判断用户提问的与系统设定的哪种问题是一样的,这也涉及复述生成...总结来说:复述生成的应用场景有:问答,信息检索,信息提取,系统对话...2. 现有工作既然复述生成这么重要,那一定有很多学者进行了研究,他们都是怎么做的?本文提出的方法和他们提出的又有
2020-08-20 11:41:24
303
原创 《A Deep Generative Framework for Paraphrase Generation》论文笔记--相关工作、实验
一、相关工作:(Quirk,Brockett,and Dolan 2004) apply SMT tools, trained on large volumes of sentence pairs from news articles. (Zhao et al. 2008) proposed a model that uses multiple resources to improve SMT based paraphrasing, paraphrase table and feature functi
2020-08-18 18:28:59
488
原创 《A Deep Generative Framework for Paraphrase Generation》论文笔记--方法
一、概述Our framework uses a variational autoencoder (VAE) as a generative model for paraphrase generation. In contrast to the standard VAE, however, we additionally condition the encoder and decoder modules of the VAE on the original sentence. This enables
2020-08-11 17:26:47
236
原创 《A Deep Generative Framework for Paraphrase Generation》论文笔记--摘要、引言
论文翻译及其他相关内容:https://ldzhangyx.github.io/2018/09/26/deep-para-generation/(下述英文是原文内容,中文是给出的翻译)标题:Paraphrase Generation:产生复述句一、摘要:1. 应用:question answering, information retrieval, information extraction, conversation systems...问答,信息检索,信息提取,系统对话..
2020-08-05 17:41:53
294
原创 在pycharm使用anaconda构建的pytorch虚拟环境
打开pycharm,在files->settings->project:<xxx>->project interpreter界面,可以设定project interpreter。选择【齿轮】,点击【Add】,后进入:选择【Existing enviroment】,点击【...】按钮,后进入:选择一个已经存在的conda虚拟环境,即【pytorch】,点击【OK】,进入上一层:点击【OK】,回退上一层:如果想要改名字,需要点击后面的【齿轮】
2020-06-25 22:01:39
2156
3
原创 win10 安装pytorch(anaconda)
现有:anaconda + python(3.7)一. 更改anaconda为清华镜像1. 各系统都可以通过修改用户目录下的 .condarc 文件。Windows 用户无法直接创建名为 .condarc 的文件,可先执行下面命令,生成该文件之后再修改。conda config --set show_channel_urls yes2. 这时我们来到C盘–>用户–>选择刚刚的用户,就能看到该文件。3.右键该文件,选择打开方式为记事本4. 将下列代码全部复制黏贴到文.
2020-06-23 17:41:02
359
原创 vue中使用md5加密
1. 安装 js-md5npm install --save js-md52. 导入包import md5 from 'js-md5';3. 使用console.log(md5(selfrobotid));注:“selfrobotid”是一个需要加密的对象。console显示的内容就是加密后的结果。
2020-05-19 10:03:54
309
原创 前端:input中value值接受参数(:value)
value前面加“:”,可以改变其值(即:value接受参数),否则只能显示“ ”里的东西。eg(只差一个“:”):另附:
2020-05-14 18:36:37
2215
原创 win10下git学习-3-恢复到修改之前的某一状态(reset)
背景:当使用git进行修改并提交(add、commit)之后,发现改错了,应该回到之前的某一版本,应该怎么办呢?举例 - 说明:用【git log --oneline】可以查看到更改的信息,可以看到我已经对1.py(我这里的gitCode只有1.py这一个文件)做了两次修改了举例 - 问题:现在忽然发现忘记对第二次修改做个东西,那怎么补上这个东西,使它还是处于第二次修改的状态呢...
2020-04-25 21:46:48
360
原创 win10下git学习-2.2- (git diff各种情况)
1. git diff适用:当前文件处于更改后状态,也就是说没有进行【add】和【commit】操作,处于【 M】状态(可以用git status -s查看)。eg:得到:文件更改的内容,“+”表示新增的部分,“-”表示删除的部分;2. git diff --cached适用:修改文件已经过【add】操作,且处于【M】状态。3. git diff HEAD适用:当前...
2020-04-25 20:57:44
155
原创 win10下git学习-2-修改git下文件
接着【win10下git学习】上一部分继续。打开【gitCode】文件夹下的【1.py】文件(原来为空),然后对其进行更改并保存。查看当前git状态:git status查看当前git状态简化版:git status -s然后又重复上一部分中的提交步骤:【git add 1.py】 --> 【git commit -m "第一次修改"】补充说明:gi...
2020-04-25 15:15:28
170
原创 win10下git学习-使用入门
本人纯小白,一点一点学着来的,写的也比较全,适用于0基础的。略显墨迹,别介意。内容来源:【莫烦Python】的【b站】视频,其实我就是个搬运工,哈哈。1. 下载git直接在百度浏览器下搜索【git】,点击【git官网】,然后页面会自动找到适应电脑的git版本,然后点击下载即可。然后就是简单的一步步安装即可,不懂的可以搜索其他博客。2. git使用入门-- 我还是在学习阶段...
2020-04-25 14:53:54
393
原创 vscode自动补全html
汉化后,点击【文件】-->【首选项】-->【设置】,搜索【file】,点击【在setting.json中编辑】。原内容:添加【"*.vue":"html"】后保存,现内容:可以实现输入<div>后,回车自动生成</div>等。...
2020-04-21 16:27:22
5249
2
原创 win10 下安装vue-cli
如果你还没有安装nodejs的话,请先安装nodejs,参见上一篇博客。1.全局安装vue-clinpm install vue-cli -gvue-cli提供了几个模板给开发者用于不同类型的项目,具体查看:vue list一般我们用webpack和webpack-simple的比较多,这里我选择用webpack.2. 全局安装webpackcnpm i...
2020-04-17 00:04:44
966
原创 win10 下安装nodejs(小白安装)
1. 下载安装包官网地址:https://nodejs.org/zh-cn/点击红框进行下载。下载完成后,双击进行安装。点击【next】,同意协议后,选择下载路径,建议安装的路径不要有中文或者空格,下图是我的安装路径。点击【next】后,安装模式选的是:Add to PATH,可以保证安装后的路径,已经在系统环境path中无需进行另外的配置。点击【next】...
2020-04-16 21:12:47
2039
1
转载 Spark安装-ubuntu 18.04下安装
在安装spark之前,首先需要安装配置Hadoop,这个就不做详细介绍了,可以参看另一篇:https://blog.youkuaiyun.com/weixin_42001089/article/details/81865101本文参考:https://blog.youkuaiyun.com/weixin_42001089/article/details/82346367一、查看Hadoop安装情况...
2019-06-26 14:28:42
8127
1
原创 Bert源码解析--训练集生成
这一部分的源码主要实现在create_pretraining_data.py和tokenization.py两个脚本里。先介绍主要部分:create_pretraining_data.py这里小标1,2用的太多了,为了方便区分,我用了不同颜色(红、橙、绿)的小标表示,同一个颜色是一个部分的;脚本中用到的函数,我用紫色的进行了标识。源码地址:https://github.com/goog...
2019-04-18 15:34:37
1309
2
原创 个性化推荐系统--样本选择与特征选择相关知识(8-3)
回忆一下,8-1中给出的实例,当时用了3个样本,3个特征来演示LR模型的工作原理。但是,可能会有疑问,为什么只有3个样本?在实际的项目中,可能会有非常多的样本,其中有些样本是可以用的,有些样本是不可以用的,到底哪些可以用,哪些不可以用。包括我们有很多的特征,依据什么规则来判断是否对最终的结果有效都是下面要介绍的内容。下面首先看一下样本方面的知识。在点击率预估过程中,需要的样本是带有labe...
2019-04-09 21:07:03
3106
原创 个性化推荐系统--逻辑回归模型的数学原理(8-2)
一、单位阶跃函数(sigmoid)阶跃函数及其导数:函数表达式:当 x = 1 时,f(x) = 0.5 ; 当 x = 10 时,f(x) 接近于1 ,这也就是之前说过的,当x > 0 的时候,会非常快速的接近于1;当x <0 的时候,会非常快速的接近于0 。这完全符合LR模型,对0-1分类时的要求。下面再来看一下其导数:即为:也就是 f(x...
2019-04-09 15:17:46
1653
原创 个性化推荐系统--逻辑回归模型的背景介绍(8-1)
一、LR(逻辑回归)背景知识介绍将会介绍什么是点击率预估、什么是分类模型以及LR模型的基本使用流程、LR模型的基本训练流程,从这几个方面介绍LR的背景知识。1. 点击率预估与分类模型什么是点击率预估呢?相信点击率的概念大家都知道,在系统中 点击率 = 点击的数目 / 总展现的数目,而点击率预估就是针对特定的用户在当前上下文结合用户当前的特征给出的item可能被点击的概率,预估方法可...
2019-04-08 22:26:24
3251
原创 个性化推荐系统--学习排序综述(7-1)
一、什么是学习排序?说起学习排序,首先介绍一下排序,排序是在搜索场景以及推荐场景中应用的最为广泛的。传统的排序方法是基于构造相关度函数,使相关度函数对于每一个文档进行打分,得分较高的文档,排的位置就靠前。但是,随着相关度函数中特征的增多,使调参变得极其的困难。所以后来便将排序这一过程引入机器学习的概念,也就变成这里介绍的学习排序。那么这里介绍的排序都是指对于单独的文档进行预估点击率,将...
2019-04-08 13:37:02
2371
原创 个性化推荐系统--个性化召回算法总结与评估方法的介绍(6-1)
一、个性化召回算法的总结这里会将之前介绍过的几种算法进行归类,并简短介绍每一种个性化召回算法的核心原理;同时演示工业界中多种召回算法共存的架构。下面看一下之前讲过的个性化召回算法的分类:1. 基于邻域的:CF、LFM、基于图的推荐personal rankitem-CF是item根据user的贡献,得到item的相似度矩阵,用户根据点击过的item的相似item来完成推荐。us...
2019-04-07 19:06:05
4976
原创 个性化推荐系统 5-1 content-based算法知识介绍
一、个性化召回算法Content based背景介绍1. 思路简单,可解释性强任何一个推荐系统的初衷,都是推荐出用户喜欢的item。基于内容的推荐,恰恰是根据用户的喜好之后,给予用户喜欢的物品。eg:某一个用户经常点击体育类的新闻,那么在这个用户下一次访问这个网站系统的时候,自然而然的给用户推荐体育类型的新闻。那么对于推荐结果可解释性非常的强。2. 用户推荐的独立性基于内容...
2019-04-04 14:13:22
1593
1
翻译 4-3 item2vec依赖模型word2vec之skip gram数学原理介绍
1. 问题抽象skip gram是已知中间词,最大化它相邻词的概率。与CBOW的不同:CBOW的时候,是选取一次负采样;而这里对于中间词的上下文的每一个词,每一次都需要进行一个负采样。下面看一下条件概率:与之前的CBOW大体形式一样,不同之处:(1)隐含层输出的是中间词对应的词向量;而CBOW是输出的所有中间词上下文词向量对应的和;(2)theta:上下文的词,或者...
2019-03-31 22:00:41
522
翻译 4-2 item2vec依赖模型word2vec之CBOW数学原理介绍
word2vec有两种形式:CBOW skip gram一、CBOW网络分为三层:输入层、投影层、输出层。输入层:上下文;投影层:将上下文向量加起来;输出层:当前词;投影层与输出层之间是全连接,如果输出的这个词是这里的W(t)的话,希望最大化的就是这个概率。而除了W(t),词典(词典指训练语料包含的所有的词)中所有词的生成概率最小。这就引申出一个问题,如果其余词...
2019-03-31 21:11:52
1115
原创 4-1 item2vec算法的背景与物理意义
item2vec的原型:word2vec一、背景1. Item2item的推荐方式效果显著:很多场景下item2item的推荐方式要优于user2item;item2item的推荐方式:在获取item相似度矩阵之后,根据用户的最近的行为,根据行为过的item找到相似的item,完成推荐,如itemCF。user2item:根据用户的基本属性和历史行为等基于一定的模型,算出最可能...
2019-03-31 15:23:31
1317
原创 3-2 personal rank 算法的数学公式推导
personal rank是可以通过用户行为划分二分图为固定user得到item重要程度排序的一种算法。1.算法的文字阐述对用户A进行个性化推荐,从用户A节点开始在用户-物品二分图random walk,以alpha的概率从A的出边中等概率选择一条游走过去,到达该顶点后(举例顶点a),有alpha的概率继续从顶点a的出边中等概率选择一条继续游走到下一个节点,或者(1-alpha)的概率回到...
2019-02-18 13:59:20
1691
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人