- 博客(5)
- 收藏
- 关注
原创 琐碎知识—每日整理
1 爬虫1.1 cookie cookie是服务器安在客户端的“监视器”,记录了包括登录状态在内的所有信息,这些信息由服务器生成和解释,服务器通过客户端携带的cookie来识别用户。cookie存在生命周期,短的关掉浏览器就失效,长的能若干天免登陆,一旦失效就要重新获取。所以只要得到登录后的cookie并必要时进行更新,服务器就会认定其为登录状态。通常可根据浏览器记录中获取co...
2018-11-13 10:30:10
181
原创 EM算法及其理解
1. EM算法是求解含有隐变量的极大似然估计参数的迭代算法。2. 极大似然估计可以用梯度下降法求解,但是如果概率分布中含有隐变量的时候,先求和再求log,再求导很难。3. 对于每一轮的迭代,先找到当前函数的一个下界函数,如果我们找到让下界函数达到最大的参数,那么这个参数也一定能让原函数增大;选取的这个下界函数有着很好的性质:先求log在求和,这样就比较好求导。4. 理解这里...
2018-10-21 15:03:02
244
原创 word2Vec基础背景知识
从自然语言模型谈起1 词向量1.1词向量自然语言处理就是将自然语言交给机器的算法来处理,首要的任务就是把语言数字化,词向量就是将词语转换为向量的一种方法。词向量主要有以下两种表示方法。one-hot编码Distribted Representationone-hot编码是用一整串0 1来表示某个词语,向量到的长度为词典的大小,某个词的词向量只有一个元素位置为1,其余均为0。缺点就是维度太大,而
2017-01-20 14:06:33
668
原创 Word2Vec模型
Word2Vec模型word2vec模型在NNLM模型的基础之上演变而来,我们的最终目的都是用函数拟合出一个句子的概率,这个概率可以拆分成多个概率相乘的形式,每个位置为P(wi|context)。NNLM用四层模型,求解出了这个概率值,而word2vec模型抛弃了其中最耗时的隐层,而且投影层是上下文词语向量直接相加而不是拼接而成,直接以概率值输出。1 基于Hierarchical Softmax模型
2017-01-20 13:41:42
1014
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人