
NLP
明子哥哥
学习记录笔记
展开
-
word2vec学习资料理论和代码注释
记录几个比较还不错的学习资料关于word2vec,我有话要说原版word2vec代码详解python版word2vec原版word2vec注释原创 2020-06-24 15:34:18 · 179 阅读 · 0 评论 -
Bert实战之文本分类(附代码)
1、概要Bert 是 Google 在 2018 年 10 月提出的一种利用大规模语料进行训练的语言模型,其通过Mask LM和sentence-level这两个子任务进行预训练。2、Bert怎么用2.1 fine-tune(微调)通过加载预训练好的 Bert 模型,将我们自己任务的数据集输入给该模型,在源网络上继续训练、不断更新模型的权重,最后得到一个适用于自己任务的模型。2.2 f...原创 2019-12-16 17:44:34 · 4571 阅读 · 0 评论 -
PySpark计算TF-IDF
tf-idf是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。1. TF在一份给定的文件ddd里,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与原创 2020-05-25 20:40:15 · 2637 阅读 · 0 评论