
自然语言处理
那什
热情开朗活泼的程序姑娘~
展开
-
Word2vec理解推导
一旦提到自然语言处理,想必大家都会接触到经典模型Word2vec,他是根据词语的上下文位置用来将单词矢量化的一个模型,已经被证明所转换的单词具有语义话意义,平时我们在处理文本数据时,经常会遇到数据稀疏导致训练困难的问题,举个例子,有三个单词,dog,cat,bird,如果按找平常one-hot的思维,那么会被转换成如下形式 dog cat bird ...原创 2019-02-28 13:57:22 · 474 阅读 · 0 评论 -
词向量-Glove理解推导
Glove模型 模型目标:进行词的向量化表示,使得向量之间尽可能的蕴含语义和语法的信息 Glove用词向量表达共现词频的对数 代价函数: 模型推导 (不是很严谨) 首先给予一些定义 共现词频Xi,j 表示若中心词为i,语境词j出现的次数,通俗一点就是说单词i和单词j在给定滑动窗口数时同时出现的次数 Xi表示单词出现的总次数 表示单词k出现在单词i语境中的概率 表示在中心词为i...原创 2019-03-01 16:49:17 · 865 阅读 · 0 评论 -
中文分词算法
写在最前面: 由于我们chinese language的特殊性,不和英文中有天然空格符一样,我们需要将汉字序列切分成单独的词。 分词算法是文本挖掘的基础,通常对整个模型的效果起着较大的决定作用。中文分词算法主要分为基于词表的分词算法、基于统计模型的分词算法、基于序列标注的分析算法。下面我们来一一剖析吧 准备好了吗!迎接疾风吧,数学能让人清醒!!! 目录 1.基于词表的分词算法 ...原创 2019-03-02 22:00:20 · 7177 阅读 · 0 评论