yuanwyue-优快云博客

原创 [Leetcode] 1130. Minimum Cost Tree From Leaf Values

1130 Minimum Cost Tree From Leaf Values综合性比较高的一道题，记录一下，便于思考和回顾。原题地址：Minimum Cost Tree From Leaf ValuesGiven an array arr of positive integers, consider all binary trees such that:Each node has either 0 or 2 children;The values of arr correspond to t

2020-05-09 10:20:04 725

原创 NLP词向量发展历程

这篇文章记录词向量的发展历程，包括tf-idf、word2vec、GloVe、ELMo、OpenAI GPT以及Bert，只记录个人认为比较核心的内容，以及一些值得思考的边角细节。1、tf-idftf-idf是一种比较传统的文本表示方法，它首先为每个词计算出一个值，再组成向量来表示当前文档。它的大小等于词表数。首先tf是词频，也就是当前词在文档中出现的次数，通常会除以文档总词数来做归一化。id...

2020-02-25 17:25:43 1528

原创 pytorch学习之nn.Embedding和nn.EmbeddingBag

从基础的nn.Embedding说起：CLASS torch.nn.Embedding(num_embeddings, embedding_dim,padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None)num_embeddings, embe...

2019-11-18 22:36:52 11393 3

原创 pytorch中LSTM的细节分析理解

虽然看了一些很好的blog了解了LSTM的内部机制，但对框架中的lstm输入输出和各个参数还是没有一个清晰的认识，今天打算彻底把理论和实现联系起来，再分析一下pytorch中的LSTM实现。先说理论部分。一个非常有名的blog把原理讲得很清楚，推荐参考。总之就是这些公式：简单来说就是，LSTM一共有三个门，输入门，遗忘门，输出门，i,f,oi,f,oi,f,o分别为三个门的程度参数，ggg是...

2019-08-20 21:02:21 9810 10

原创 conda 导出环境/导入环境/导出base环境

conda的虚拟环境真的非常实用，尤其是对于大的深度学习项目，给每个项目单独配一个环境，轻巧又容易管理，还能直接用别人配好的虚拟环境，非常方便。这里记录几个常用的导入导出命令免得每次找：查看可用环境：conda info --envs输出样式：更换环境（如py36）：source activate py36导出当前环境：conda env export > py36.ya...

2019-06-14 20:16:52 125451 8

原创 Cross-relation Cross-bag Attention for Distantly-supervised Relation Extraction 论文笔记

原文： Cross-relation Cross-bag Attention for Distantly-supervised Relation ExtractionAAAI 2019的一片文章。这篇文章也是针对DS的噪声问题，旨在构造一个noise-robust的训练方法。cross-relation attention句子级的attention策略，即构造bag represen...

2019-06-06 14:17:10 1046

原创 transE(Translating Embedding)详解+简单python实现

表示学习旨在学习一系列低维稠密向量来表征语义信息，而知识表示学习是面向知识库中实体和关系的表示学习。当今大规模知识库（或称知识图谱）的构建为许多NLP任务提供了底层支持，但由于其规模庞大且不完备，如何高效存储和补全知识库成为了一项非常重要的任务，这就依托于知识表示学习。transE算法就是一个非常经典的知识表示学习，用分布式表示（distributed representation）来描述知识库...

2019-05-15 18:55:43 47840 31

原创主成分分析(PCA)的推导与理解

一、PCA简介首先

2019-03-27 16:33:58 1337

原创算法小结

分治几个典型的例子：MergeSort，CountingInversion，ClosestPair，Multiplication，FFT结合随机策略：QuickSort，BFPRT and FloydRivest algorithm for Selection problem 分析：看输入是否可分 → 每个子问题的结果是否可组合基本思想：把一个问题Divide成几个独立的...

2019-01-18 16:12:46 712

原创贝叶斯决策的过程

最小风险决策最小风险决策是贝叶斯决策的一般形式。引入决策代价loss：，表示原本属于类j，被错分为类i所产生的风险（BTW，与并不相等，有时相差很大。比如肿瘤检测时）。则条件风险，贝叶斯决策就要选择最小化该条件风险的类别i。当为0/1损失时，，最小风险决策退化为最小错误率决策，或最大后验决策。带拒识的决策在很多模式识别应用中，当最大后验也不是很高，也就是置信度低的情况下，很可能出...

2018-12-28 18:43:15 6006

原创谱聚类基本方法详解

谱聚类是一种用图论思想解决聚类问题的手段。一、背景1.1 一些图论的知识首先定义无向图G(V,E)G(V,E)G(V,E)的几个基本概念：1、邻接矩阵WWW，是一个n∗nn*nn∗n的对称方阵。2、顶点的度矩阵DDD，是一个n∗nn*nn∗n的对角矩阵，对角线元素为对应顶点的度。是由邻接矩阵各行元素累加至主对角得到的。如下图所示：当图G的边带有权重时，可将权重视为顶点间的相似度，WW...

2018-12-04 00:09:50 2790 1

原创贝叶斯决策类条件概率密度估计：最大似然和贝叶斯参数估计

那你

2018-09-29 17:44:50 6810 2

原创 LeetCode lengthOfLongestSubstring

题目：Given a string, find the length of the longest substring without repeating characters.Examples:Given “abcabcbb”, the answer is “abc”, which the length is 3.Given “bbbbb”, the answer is “b”, with t

2017-03-28 22:51:05 481

原创编译原理（龙书）学习之路（1）

初学编译原理，刚刚看完第三章。打算开始记录书上一些写得不太明白的部分，供大家和自己参考。1、followpos计算问题在第三章末尾，有一节介绍了由正则表达式直接生成DFA的方法。需要三个辅助函数nullable，firstpos，lastpos和followpos。其中前三个都很好计算也很好理解，而followpos虽然通过例子知道了如何计算，但算法中对它的原理介绍却十分含糊。书上是这么说的：如果

2017-03-27 23:24:09 5161 1

原创带有期限的作业排序java实现

贪心方法的一个实例。问题大概就是处理n个作业，每个作业都有完成期限（Deadline），要求安排作业序列使效益达到最大。算法的实现书上给了两种，一种是根据期限挨个插入，一种利用了树的思想。本文给出了第一种的java实现。首先必须按效益从大到小把作业排序，当然对应的D数组也对应排好。依次将作业加入到集合J中，如果不违反任何已存在与J中的作业完成期限即可插入该作业。这个方法非常直观，因此即使复杂度比树方

2017-03-27 17:09:51 1189

yuanyue