
自然语言处理
ClintonZero
热爱编程,热爱计算机,充满激情与活力
展开
-
自然语言处理总概括
自然语言处理自然语言处理是什么自然语言处理(Natural Language Process)就是利用计算机来处理人类语言的学科,属于计算机与语言学的交叉学科。自然语言处理有哪些技术大致包括如下技术:1.分词(Word Segmentation或Word Breaker,WB)在英文文本当中每个词之间都有间隔好分,但在中文文本当中一句话之间每个词是没有间隔的,所以需要对一个句子当中每个...原创 2019-02-14 20:40:03 · 8697 阅读 · 0 评论 -
文本分类—机器学习方法
##不好意思最近事情有点多下次在完善一下导入常用包import randomimport jiebaimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn....原创 2019-03-09 22:52:07 · 659 阅读 · 1 评论 -
基于LSTM对IMDB数据集进行情感分析
IMDB情感分析第一步导包from keras.preprocessing.text import Tokenizerfrom keras.models import Sequentialfrom keras.layers.core import Dense,Activationfrom keras.layers.embeddings import Embeddingfrom kera...原创 2019-03-02 20:49:19 · 2532 阅读 · 1 评论 -
文本特征提取
在自然语言处理中我们把文本数据变成向量数据,在向量数据中我们可以得到很多来自于文本数据当中的语言特性,这种方式叫做文本表示或文本特征构造。文本特征的通用信息源文本分类问题当中的对象词:在英文文本处理当中面对的是单个词组用空格隔开容易区分,在中文文本当中需要通过特定的词库如python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是...原创 2019-03-05 20:36:57 · 25733 阅读 · 2 评论 -
基于KenLM的句子打分项目
KenLM工具包基于统计语言模型当中的训练语料库方法在这里介绍一下KenLM模型KenLM基本介绍工具介绍:https://kheafield.com/code/kenlm/github地址:https://github.com/kpu/kenlm#kenlm下载地址:http://kheafield.com/code/kenlm.tar.gz在linux当中使用KenLM工具包1....原创 2019-02-20 20:27:41 · 3246 阅读 · 8 评论 -
文本表示
文本表示文本表示,简单的说就是不将文本视为字符串,而视为在数学上处理起来更为方便的向量。而怎么把字符串变为向量,就是文本表示的核心问题。文本表示的好处是什么?根本原因是计算机不方便直接对文本字符串进行处理,因此需要进行数值化或者向量化。便于机器学习。不仅传统的机器学习算法需要这个过程,深度学习也需要这个过程。良好的文本表示形式可以极大的提升算法效果。文本表示分为哪几种呢?(基于类型...原创 2019-02-18 14:50:52 · 2552 阅读 · 0 评论 -
关键词提取
基于 TF-IDF 算法的关键词抽取1.什么是TF-IDF呢?TF(Term Frequency)词频IDF(Inverse Document Frequency)逆文档频率,表示一个词的大小与常见词的反比假如我们需要通过计算机来找到文本的关键词如何查找呢,一般是统计出现最高词语的频率也就是TF词频。但是在统计词语的过程中通常会遇到如下问题—最高出现的词汇可能是”停用词”,如”的”,”是”...原创 2019-02-18 03:06:25 · 1449 阅读 · 0 评论 -
常见的英文文本处理步骤
常见的英文文本处理流程中都包含哪些步骤1.导入相应的类库import nltkfrom nltk import word_tokenize, sent_tokenize2.导入数据corpus = open(‘数据路径’,‘r’).read()3.对文本进行断句处理sentences = sent_tokenize(corpus)4.对含有的句子列表进行分词处理tokenized...原创 2019-02-18 03:04:16 · 3280 阅读 · 0 评论 -
语言模型
语言模型语言模型在自然语言处理当中是用于计算一个句子的概率,如果一个句子表达的清晰度强那么概率值高,如“武松打死了老虎”与“老虎了死武松打”前者概率值就高于后者,前者出现概率更高。联合概率链规则在一句话当中每个词之间相互依赖概率统计公式为但在现实情况中由于计算量过大所以我们一般不会计算所有词组之间的相互依赖关系。如在垃圾邮件分类问题中我们可以只考虑每个句子当中词的前后之间的依赖关系,我...原创 2019-02-18 03:01:45 · 1060 阅读 · 0 评论 -
task3_TF-IDF_互信息
基于 TF-IDF 算法的关键词抽取1.什么是TF-IDF呢?TF(Term Frequency)词频IDF(Inverse Document Frequency)逆文档频率,表示一个词的大小与常见词的反比假如我们需要通过计算机来找到文本的关键词如何查找呢,一般是统计出现最高词语的频率也就是TF词频。但是在统计词语的过程中通常会遇到如下问题—最高出现的词汇可能是”停用词”,如”的”,”是”...原创 2019-03-07 20:11:06 · 365 阅读 · 0 评论