
NLP
瑶子ove
每天进步一点
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Word2vec进行中文情感分析
'''Chinese sentiment analysis'''from sklearn.cross_validation import train_test_splitfrom gensim.models.word2vec import Word2Vecimport numpy as npimport pandas as pdimport jiebafrom sklearn.e...原创 2018-11-02 01:29:59 · 4190 阅读 · 8 评论 -
news ---stock练习-----python
news_stock练习:from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizerimport pandas as pdimport numpy as npfrom sklearn.svm import SVCfrom sklearn.metrics import roc_auc_scoref...原创 2018-10-07 17:06:39 · 271 阅读 · 0 评论 -
kaggle 深度学习练习----python
练习总共包括三级,char/word/picture第一部分:import numpy as npfrom keras.models import Sequentialfrom keras.layers import Dense #dense指普通的神经网络from keras.layers import Dropoutfrom keras.l...原创 2018-10-07 17:00:14 · 676 阅读 · 0 评论 -
希婆邮件主题抽取-----LDA模型应用
代码实例:1、导入库和文件import numpy as npimport pandas as pdimport refrom gensim import corpora,models,similaritiesfrom nltk.corpus import stopwordsdf = pd.read_csv('H:/HillaryEmails.csv')df = df...原创 2018-11-11 10:59:54 · 1727 阅读 · 0 评论 -
NB到语言模型 +简易语言检测器
1、朴素贝叶斯(Naive Bayes),“Naive”在何处?加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes)。 Naive的发音是“乃一污”,意思是“朴素的”、“幼稚的”、“蠢蠢的”。咳咳,也就是说,大神们取名说该方法是一种比较萌蠢的方法,为啥?将句子(“我”,“司”,“可”,“办理”,“正规发票”) 中的 (“我”,“司”)与(“正规发票”)调换一下顺序,就变成了...原创 2018-11-10 16:00:29 · 577 阅读 · 0 评论 -
jieba 中文处理
基于 TF-IDF 算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为待提取的文本topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20withWeight 为是否一并返回关键词权重值,默认值为 F...原创 2018-11-10 11:38:04 · 367 阅读 · 0 评论 -
使用机器学习完成中文文本分类
数据集来自七月在线练习import jiebaimport pandas as pdimport randomfrom sklearn.model_selection import train_test_split #划分训练/测试集from sklearn.feature_extraction.text import CountVectorizer ...原创 2018-10-14 18:56:38 · 1943 阅读 · 1 评论 -
使用中文制作词云图---
'''制作词云图,背景可以替换成任意图片,本例中未展示图片'''import numpy as npimport pandas as pdfrom wordcloud import WordCloud #词云包import jieba #中文分词包import codecs #提供的open方...原创 2018-10-14 19:06:44 · 2660 阅读 · 0 评论 -
NLP基础练习
本篇文章旨在记录练习NLP中基础的熟悉和练习,可关联博客内容进行理解:https://blog.youkuaiyun.com/weixin_40924580/article/details/82962200from nltk.corpus import brownimport nltk# print(brown.categories())# print(len(brown.words()))# pr...原创 2018-10-31 00:22:51 · 568 阅读 · 0 评论 -
bag_of_words------英文情感分类问题
import osimport reimport numpy as npimport pandas as pdfrom bs4 import BeautifulSoupfrom sklearn.feature_extraction.text import CountVectorizer #计数from sklearn.ensemble import RandomForestC...原创 2018-11-01 01:10:56 · 571 阅读 · 0 评论 -
基于TED(en-zh)数据集进行实现Seq2Seq模型
博客文章基于Google Tensorflow实战深度学习框架第九章部分内容,手写一遍代码加强模型理解。1、获取词汇表# -*- coding:utf-8 -*-'''@Author:zhangy@Modify:2019.7.5'''import codecsimport collectionsfrom operator import itemgetter#设置中英文类型,得...原创 2019-07-08 15:20:14 · 972 阅读 · 0 评论