
NLP自然语言处理
Legolas~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【自然语言处理】gensim的word2vec
import jieba import gensim text_path = "E://python/baiyexing.txt" stopwords_path = "E://python/stopwords.txt" with open(text_path) as f: text = [line.strip().split('\n') for line in f.readlines()] print(text) [[‘出了近铁布施站,沿着铁路径直向西。已经十月了,天气仍闷热难当,地面也很原创 2020-09-01 21:02:05 · 918 阅读 · 0 评论 -
【自然语言处理】sklearn的TF-IDF:TfidfVectorizer
关于tf和idf的定义这里就不再赘述了,网上关于二者的讲解博客非常多,这里只讲一下在TfidfVectorizer中是如何计算的,此处计算与平常的公式略有不同。 先举个栗子: from sklearn.feature_extraction.text import TfidfVectorizer corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is原创 2020-08-17 23:56:49 · 663 阅读 · 0 评论 -
【自然语言处理】Gensim学习笔记(一)
关于这个库的介绍这里不多说了,不建议看官方文档,官方文档写的比较乱,看的时候抓不住重点,网上关于这个库的博客也很多,但大多都挺水的,不是互相抄袭就是很多api一带而过,对于小白来说学起来真的很苦恼,其实有的时候静下心来、别浮躁、心平气和地学点东西真的挺好的哈~ 1.doc2bow:词袋模型 这个api我是研究了一上午才明白的,在源码中这样解释到: Convert `document` into the bag-of-words (BoW) format = list of `(token_id, token原创 2020-08-13 19:30:13 · 378 阅读 · 0 评论 -
【自然语言处理】opencc:中文繁体☞中文简体的转换
在看蚂蚁金服人工智能团队写的一篇关于中文的NLP的论文时,才知道有opencc这么个库,可以将中文繁体转为中文简体,大大简化了处理过程。 如果用的pycharm直接点开解释器,搜opencc,然后install openCC即可。也可以在Terminal通过pip install opencc-python -i https: //pypi.doubanio.com/simple。 举个栗子: import opencc cc = opencc.OpenCC() print(cc.convert("「開放原创 2020-08-12 17:56:40 · 2180 阅读 · 0 评论 -
tensorflow实现Word2Vec——生成词向量以及降维可视化
以下代码来源与《Tensorflow实战》,来自Github上的tensorflow开源实现,代码非常简洁,可读性高,对于研究NLP、tensorflow、python编程等有很大帮助。 import zipfile import collections import tensorflow as tf import numpy as np import math import random fro...原创 2020-04-25 16:27:53 · 2350 阅读 · 0 评论 -
NLP——数据的batching方法
在文本数据中,每个句子的长度不同,常使用填充的操作将句子长度补齐。然而,在自然语言处理中,句子并非随机选取,而是在上下文之间有关联的内容,我们必须将前面的句子的信息传递到后面的句子。如果模型没有大小限制,显然最理想的情况就是将整个文档前后连接起来作为一个句子来训练(如下图所示,有若干个序列,每个序列代表一个句子,每个句子中包含经过预处理的相应单词的编码)。 但是现实根本无法实现,由于文本中通常会...原创 2020-04-21 19:02:08 · 1554 阅读 · 0 评论 -
NLP——数据预处理
预处理任务:对文本中的单词进行分隔,统计单词出现的频数并排序,对单词进行编码操作,按照单词出现的频数由大到小从0开始依次编码,步长为1。当再次输入文本语句时,我们即可得到每个单词相对应的编码数。 import codecs import collections import re from operator import itemgetter data_path="Lord of the rin...原创 2020-04-21 14:27:30 · 2288 阅读 · 0 评论