
自然语言处理
XiaomengYe
脚踏实地,专注,升华
展开
-
分词原理简介
先简单介绍下分词,分词就是要把一个句子分成各个单独的词汇。对于西方语言来说,它们具有天然的分隔符(也就是空格),但是东方语言多基于characeter(也就是字符),不同的字符之间的组合可能会有多种不同的意思,这就造成了东方语言分词特有的困难。1. 基于词典的分词最简单也是最直接的方法就是查词典,我们从左到右扫面一遍句子,遇到可以在词典中可以知道的词汇就把它分出来。这种方法当然是比较快捷的...原创 2019-04-07 17:09:10 · 1181 阅读 · 0 评论 -
TFIDF关键词提取简介
TFIDF原理对于若干个文章的集合,我们要提取每篇文章具有代表性的关键词,我们应该怎么做呢?最直观也是最容易想到的方法,就是统计每个词汇在文章中出现的频率TF(term frequency),频率高的就是具有代表性的词汇。但是这样的话,可以想象频率最高的词汇一定是“的”“是”“你我他”这样的stop words,所以,我们首先要排除这些词汇。TF的计算方法如下: ...原创 2019-04-08 12:27:33 · 3050 阅读 · 0 评论 -
主题模型LDA简介
介绍性的讲解在此不多讲,本文主要讲主题模型LDA的原理。我们可以从生成模型思考一下,一篇文章由文档进而生成文字,是怎样的一个概率过程呢。在主题模型中,文档“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”。按照该思路,文档中词语出现的概率为: 上面的公式还可以用矩阵来...原创 2019-04-09 10:47:38 · 458 阅读 · 0 评论 -
word2vec基本原理简介(一)
概率语言模型首先需要明确,我们这里讲到的语言模型是概率语言模型,非概率语言模型这里不做讨论。语言模型的基本任务:在一个文本中,根据词汇wt的前面词汇来推测wt的概率,如果我们加入马尔可夫假设,即词汇wt只和前 n - 1 个词汇相关,则一个长度为T的段落其概率可以表示为: 比较简单的做法使用...原创 2019-06-20 20:40:10 · 1247 阅读 · 0 评论 -
All you need to know about text preprocessing for NLP and Machine Learning
转载地址:https://www.kdnuggets.com/2019/04/text-preprocessing-nlp-machine-learning.html关于nlp语料预处理非常棒的一篇入门级文章,其中提到了词干提取(stemming)、词形还原(lemmatization)、规范化(normalization)等等话题,另外还提供了相关代码:https://github.com/...转载 2019-07-18 16:05:37 · 128 阅读 · 0 评论 -
transformer结构笔记
整体结构:encoder - decoder创新点:self-attention、multihead-attention等细节:1. encoder的每层结构 encoder包含了若干个层,每层都有类似的结构,即一个self-attention层加上一个postion-wise的前馈网络: ...原创 2019-09-26 08:42:11 · 586 阅读 · 0 评论