
NLP学习
Divine0
这个作者很懒,什么都没留下…
展开
-
中文文本情感分类(基于LSTM和textCNN)
中文新闻数据集负面文本:正面文本:以上文本都是用爬虫从网络上爬取的,由人工进行分类,为了将数据喂进神经网络模型,需要先对文本进行预处理,预处理包括去除标点符号,停用词过滤和分词等,这里就不放预处理代码了,处理完的数据如下:使用循环神经网络(LSTM)我们将应用预训练的词向量和含多个隐藏层的双向循环神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情绪。首先导入所需的包或模块。import collectionsimport osimport randomimport ti原创 2020-06-09 14:27:16 · 7116 阅读 · 8 评论 -
NLP实战(三)实现拼写纠错
Part 3: 实现拼写纠错此项目需要的数据:vocab.txt: 这是一个词典文件,作为判断单词是否拼错的依据,任何未出现在词典中的词都认为拼写错误。spell-errors.txt: 该文件记录了很多用户写错的单词和对应正确的单词,可以通过该文件确定每个正确的单词所对应的错误拼写方式,并计算出每个错误拼写方式出现的概率testdata.txt: 记录了一些包含拼写错误的单词的文档,用于最后测试Part 3.1 加载词典文件,根据错误单词,生成候选单词集合在这里插入代码片...原创 2020-06-06 11:46:36 · 3312 阅读 · 10 评论 -
NLP实战(二)搭建一个简单的问答系统
Part 2: 搭建一个简单的问答系统本次项目的目标是搭建一个基于检索式的简单的问答系统。通过此项目,你将会有机会掌握以下几个知识点:字符串操作 2. 文本预处理技术(词过滤,标准化) 3. 文本的表示(tf-idf, word2vec) 4. 文本相似度计算 5. 文本高效检索此项目需要的数据:dev-v2.0.json: 这个数据包含了问题和答案的pair, 但是以JSON格式存在,需要编写parser来提取出里面的问题和答案。glove.6B: 这个文件需要从网上下载,下载地址为:h原创 2020-06-04 16:33:48 · 6651 阅读 · 28 评论 -
NLP实战(一)搭建一个分词工具(基于枚举法和维特比算法)
Part 1: 搭建一个分词工具Part 1.1 基于枚举方法来搭建中文分词工具此项目需要的数据:综合类中文词库.xlsx: 包含了中文词,当做词典来用以变量的方式提供了部分unigram概率 word_prob举个例子: 给定词典=[我们 学习 人工 智能 人工智能 未来 是], 另外我们给定unigram概率:p(我们)=0.25, p(学习)=0.15, p(人工)=0.05, p(智能)=0.1, p(人工智能)=0.2, p(未来)=0.1, p(是)=0.15Step 1: 对于原创 2020-06-02 16:00:58 · 1185 阅读 · 2 评论