
nlp
bitcarmanlee
这个作者很懒,什么都没留下…
展开
-
wordcloud在mac上显示中文乱码
经过查阅资料发现,wordcloud默认不支持中文,需要指定font参数才能正常显示中文。在mac上使用wordcloud显示词云的时候,发现图片中的中文显示乱码。生成的词云图片即可正常显示中文。原创 2023-11-14 19:03:17 · 1152 阅读 · 1 评论 -
ansj分词史上最详细教程
最近的项目需要使用到分词技术。本着不重复造轮子的原则,使用了ansj_seg来进行分词。本文结合博主使用经过,教大家用最快的速度上手使用ansj分词。1.给ansj来个硬广原创 2016-12-13 11:29:50 · 55008 阅读 · 10 评论 -
word2vec数学原理详解
1.单词表示单词需要用计算机可以理解的方式表达后,才可以进行接下来的操作。1.One hot representation程序中编码单词的一个方法是one hot encoding。 有1000个词汇量。排在第一个位置的代表英语中的冠词”a”,那么这个”a”是用[1,0,0,0,0,…],只有第一个位置是1,其余位置都是0的1000维度的向量表示,如下图中的第一列所示。 也就是说, 在one转载 2017-08-23 19:12:45 · 2793 阅读 · 0 评论 -
文本分类之一:语言模型
前言最近一直在处理文本相关的一些内容,涉及到文本分类等工作。正好趁此机会,针对于文本相关的问题记录一个系列的内容,争取将文本处理过程中用到的一些技术做下大致的归纳总结。1.什么是语言模型所谓的语言模型,简单来说,就是看一句话到底是不是人话。或者说,语言模型是用来计算一个句子概率的模型,也就是计算一句话是不是人话的概率。那么如何计算这个句子的概率呢?给定一个句子,假设这个句子的序...原创 2018-08-05 17:53:22 · 2956 阅读 · 0 评论 -
通俗易懂word2vec详解,入门级选手无难度
前言自从Mikolov在他2013年的论文“Efficient Estimation of Word Representation in Vector Space”提出词向量的概念后,NLP领域仿佛一下子进入了embedding的世界,Sentence2Vec、Doc2Vec、Everything2Vec。词向量基于语言模型的假设——“一个词的含义可以由它的上下文推断得出“,提出了词的Dist...原创 2018-09-01 23:29:21 · 70095 阅读 · 14 评论