
机器学习
正在吃饭的派大星
这个作者很懒,什么都没留下…
展开
-
ModuleNotFoundError: No module named ‘numpy.testing.nosetester‘解决
conda新建一个环境 本身没有安装sklearn,重新安装了一个,调用发现报错:ModuleNotFoundError: No module named 'numpy.testing.nosetester检查报错文件,发现是import sklearn相关包的时候报错。网上看到一些方法是将sklearn相关的包更新到最新版本,但是我自己试了一下发现还是不行。最后发现是numpy和scipy的版本不匹配造成,conda环境输入:pip3 install -i https://pypi.tuna.t原创 2021-09-06 10:51:33 · 3427 阅读 · 0 评论 -
ELMO模型
ELMO是考虑上下文的模型上图只考虑了正向序列,接下来再反向进行训练:训练好正向和逆向的网络后,每次字符都输入两个网络获得对应隐藏层输出。将多层的h相加获得最终的h,再进行接下来的处理。...原创 2021-08-28 23:28:04 · 149 阅读 · 0 评论 -
auto-encoder
encoder:将输入转换为一个code 代表着输入的信息decoder:将code解码为输入同类型数据单独的encoder和decoder无法训练,因为是无监督的,但是合在一起就可以训练。deep auto-encoderencoder可以将输入编码成一个向量,这里同时需要一个判别器,能够分辨向量和输入之间是否匹配。因此这里要先训练判别器,可以输入图片和label,减小判别器的loss。将原始图片和decoder生成图片相减,获得分数。...原创 2021-08-28 23:18:14 · 105 阅读 · 0 评论 -
RNN变体及其应用(详细)
ppt来自于李宏毅老师的视频首先从带有记忆的网络开始:前一步的隐藏层状态会写入记忆单元中再次输入可以发现相同输入。因为记忆单元存在,输出是不同的rnn就是具有类似特点的网络,可以记忆之前输入的信息同时rnn根据存储信息不同可以划分为不同的网络:存储隐藏状态或者是输出双向RNN:将序列按照正反的双向顺序输入,根据两个的h获得输出y优点是获得信息更广LSTM通过输入门决定是否将记忆写到记忆单元中输出门决定是否将记忆单元中的值输出遗忘门决定是否遗忘记忆单元的值具体结构:输原创 2021-08-28 14:54:25 · 1563 阅读 · 0 评论 -
beam search
为什么要用beam search:rnn网络每次可以输出下一个节点的概率,但是如果使用贪心每次选择最大概率的节点,最终序列的概率不一定最大:例如只按照下一个节点的概率可以获得ABB 0.6^3但是还有BBB 0.4*0.9^2概率会更大同时又无法检查所有的路径(计算时间问题)因此要是用beam search设定beam的大小 例如为2那么每一次选择概率最大的2个节点。首先选择第一层的AB,下一步就有4个节点可以选择,选择最大概率的两个节点BB,以此类推实例:设定beam为3,将起始字原创 2021-08-28 11:22:11 · 198 阅读 · 0 评论 -
transformer模型
ppt来自李宏毅老师的视频在讲transformer之前需要了解一下rnn和attention的知识rnn缺点:不容易并行化计算,要一个一个字符输入方法1:用CNN代替将整体序列输入,使用filter获取信息,为了获得长序列的关系可以使用多层CNN方法2:self-attention将每个输入向量分别乘以不同矩阵获得不同的向量接下来用q对k做attention,即输入q和k输出匹配分数,注意q和k维度相同scaled dot-product attention:具体是将q和k点乘除以原创 2021-08-28 11:04:28 · 403 阅读 · 0 评论 -
attention模型
attention进行翻译:核心部分是一个rnn网络,每次输入一个向量获得对应的隐藏层向量h,z作为decoder网络的一个参数向量,每次获取z和h的匹配度作为a匹配度可以用cos相似计算,也可以搭建一个网络计算,网路的参数可以和其他参数一起学习将所有h和第一个z计算的匹配度a,通过softmax后求和获得第一个c,c作为decoder的输入。可以视为获取了输入的部分信息。接下来再用第二个z分别和h求匹配度,获得第二个c再次输入decoder,以此往复直到生成结束...原创 2021-08-28 10:17:28 · 118 阅读 · 0 评论 -
半监督学习的概念
监督学习训练数据x和标签y半监督除了上面的还有没有标签的x通常没有标签的x数目远大于有标签的半监督也根据如何使用没有标签的数据分成两类:通常使用半监督学习是因为收集数据时难以获得对应的标签。...原创 2021-08-27 22:51:35 · 151 阅读 · 0 评论