
NLP
文章平均质量分 96
令仪.雅
脚踏实地,持之以恒。
展开
-
受限玻尔兹曼机(RBM)在Tensorflow的实现
受限玻尔兹曼机(RBM)与其在Tensorflow的实现转载 2022-08-22 16:09:54 · 939 阅读 · 0 评论 -
文本表示模型中涉及的知识点整理(词袋模型,TF-IDF,主题模型,词嵌入模型)
1.词袋模型(Bags of Words)词袋模型是最基础的文本表示模型,就是把每一篇文章看成一袋子单词,并忽略每个此出现的顺序。具体就是将整段文本以词为单位分开,每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重代表这个词在文章中的重要程度。一般用TF-IDF计算权重,公式如下:TF-IDF(t,d) = TF(t,d) x IDF(t)其中TF(t,d...原创 2018-09-05 11:52:57 · 12420 阅读 · 0 评论 -
自然语言处理1---分词
1 概述分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下不需要考虑分词问题。但中文不同,天然缺少分隔符,需要读者自行分词和断句。故在做中文自然语言处理时,我们需要先进行分词。2 中文分词难点中文分词不像英文那样,天然有空格作为...转载 2019-05-07 21:59:30 · 759 阅读 · 0 评论