
NLP
光英的记忆
新世界,新创造
展开
-
fasttext和gensim训练词向量
"""https://github.com/facebookresearch/fastTextpython版本https://github.com/salestock/fastText.py这个是非官方的版本 现在已经不在使用了官方提供了Python版本 https://github.com/facebookresearch/fastText/tree/master/python现...原创 2019-12-13 19:30:56 · 1359 阅读 · 0 评论 -
fasttext进行文本分类
https://github.com/facebookresearch/fastTextpython版本https://github.com/salestock/fastText.py这个是非官方的版本 现在已经不在使用了官方提供了Python版本 https://github.com/facebookresearch/fastText/tree/master/python现在用的...原创 2019-12-13 18:02:46 · 610 阅读 · 0 评论 -
linux安装fasttext失败问题解决,RuntimeError: Unsupported compiler -- at least C++0x support is needed!
RuntimeError: Unsupported compiler -- at least C++0x support is needed!主要报错信息 ERROR: Command errored out with exit status 1: command: /root/anaconda3/envs/torch13/bin/python -u -c 'import s...原创 2019-12-13 11:04:56 · 3019 阅读 · 1 评论 -
朴素贝叶斯和SvM做中文文本分类,k折交叉验证
"""朴素贝叶斯我们试试用朴素贝叶斯完成一个中文文本分类器,一般在数据量足够,数据丰富度够的情况下,用朴素贝叶斯完成这个任务,准确度还是很不错的。机器学习的算法要取得好效果,离不开数据,咱们先把数据加载进来看看。准备数据准备好数据,我们挑选 科技、汽车、娱乐、军事、运动 总共5类文本数据进行处理。"""import jiebaimport pandas as pddf_te...原创 2019-12-12 21:51:02 · 2259 阅读 · 1 评论 -
Tf/IDF进行关键词提取,LDA进行中文文本主题模型实现
TF/idf进行关键词提取"""关键词提取基于 TF-IDF 算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为待提取的文本topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20withW...原创 2019-12-12 15:20:50 · 8679 阅读 · 5 评论 -
词云展示
import warningswarnings.filterwarnings("ignore")import jieba #分词包import numpy #numpy计算包import codecs #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode import pandas as pd import mat...原创 2019-12-12 11:45:01 · 406 阅读 · 0 评论 -
Word2Vec: Skip-Gram模型pytoch 代码实现 +注释 以及个人浅薄的理解
写本篇文章之前,我觉得一定要搞懂几件事第一 这个模型他干了什么事第二这个模型的目标函数是什么想完这个 在回去读那些讲词向量理论的文章才会觉得豁然开朗"""学习词向量的概念用Skip-thought模型训练词向量学习使用PyTorch dataset和dataloader学习定义PyTorch模型学习torch.nn中常见的ModuleEmbedding学习常见的P...原创 2019-11-14 21:42:02 · 781 阅读 · 0 评论 -
gensim进行LSI LSA LDA主题模型,TFIDF关键词提取,jieba TextRank关键词提取代码实现示例
import gensimimport mathimport jiebaimport jieba.posseg as possegfrom jieba import analysefrom gensim import corpora, modelsimport functoolsimport numpy as np# 停用词表加载方法# 停用词表存储路径,每一行为一个词,按...原创 2019-06-13 11:51:35 · 7899 阅读 · 5 评论 -
stanfordnlp parser进行PCFC 句法分析代码示例 安装教程示例
1.https://nlp.stanford.edu/software/ 官网地址2.jar包下载地址 https://stanfordnlp.github.io/CoreNLP/ https://stanfordnlp.github.io/CoreNLP/download.html3.https://github.com/stanfordn...原创 2019-06-14 10:03:22 · 1987 阅读 · 5 评论 -
jieba分词和高频词提取示例代码
import jiebaimport jieba.analyse as aly# 中文 分词工具jiebasent = '中文分词是文本处理不可或缺的一步!'seglist = jieba.cut(sent, cut_all=True)print("全模式", '/'.join(seglist))# 全模式 中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一...原创 2019-06-09 18:41:41 · 2805 阅读 · 1 评论 -
jieba中文词性表注和CRF命名实体识别代码示例
import jiebaimport jieba.posseg as possegimport refrom datetime import datetime,timedeltafrom dateutil.parser import parser# 中文词性标注和命名实体识别sent = "中文分词是文本处理不可或缺的一步!"seglist = posseg.cut(sent)...原创 2019-06-10 20:57:29 · 5812 阅读 · 1 评论 -
中文垃圾邮件分类。2种特征提取,词袋特征,IFIDF分布特征,贝叶斯NB,LR,SVM各自表现的实战示例代码
结论:数据:ham_data.txtspam_data.txtstop_words.utf8数据处理:"""@author: liushuchun"""import reimport stringimport jieba# 加载停用词with open("dict/stop_words.utf8", encoding="utf8") as f: ...原创 2019-06-25 11:54:12 · 2529 阅读 · 2 评论 -
Kmeans豆瓣书籍文本聚类实战
1.首先爬取豆瓣上所有的书籍信息作为基本的语料文本,大概5000个文本数据派虫代码如下:测试通过import sslimport bs4import reimport requestsimport csvimport codecsimport timefrom urllib import request, errorcontext = ssl._create_unve...原创 2019-06-25 22:58:02 · 3194 阅读 · 4 评论 -
图解LSTM结构
这是我见到比较清楚的对LSTM网络结构比较清晰的解释,故摘抄方面大家理解原创 2019-06-26 22:39:47 · 9114 阅读 · 3 评论 -
LSTM实战电影评价情感分析
# encoding:utf-8import numpy as npwordsList = np.load('wordsList.npy')print('载入word列表')wordsList = wordsList.tolist()wordsList = [word.decode('UTF-8') for word in wordsList]wordV...原创 2019-06-24 19:55:00 · 2563 阅读 · 1 评论 -
NLP论文翻译研读列表
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ...原创 2019-09-24 16:19:06 · 199 阅读 · 0 评论 -
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
论文地址BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding:https://arxiv.org/pdf/1810.04805.pdf摘要我们介绍了一种新的语言表示模型BERT,它表示转换器的双向编码器表示。与最近的语言表示模型不同(Peters et al., 2018; Ra...原创 2019-09-24 16:49:35 · 388 阅读 · 0 评论 -
Transform nmt translate翻译模型代码示例
import tensorflow_datasets as tfdsimport tensorflow as tfimport timeimport numpy as npimport matplotlib.pyplot as plt#加载数据examples, metadata = tfds.load('ted_hrlr_translate/pt_to_en', with_i...原创 2019-09-24 18:57:50 · 1477 阅读 · 2 评论 -
NLP自然语言处理知识结构索引汇总
python自然语言处理实战 python和nltk电子书 自然语言处理简介第一章实例代码 NLTK文本整理和清洗示例代码 NLTK 对文本结构进行语法分析代码示例 NLTK获取文章摘要代码示例 NLTK朴素贝叶斯,文本分类代码示例 采样 SMSSpamCollection数据集下载 混淆矩阵(Confusion matrix)的原理及使用(scikit-lea...原创 2019-05-22 11:32:56 · 694 阅读 · 0 评论 -
NLTK自然语言处理入门
Python NLTK 自然语言处理入门与例程在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP)。本教程将会使用 Python NLTK 库。NLTK 是一个当下流行的,用于自然语言处理的 Python 库。那么 NLP 到底是什么?学习 NLP 能带来什么好处?简单的说,自然语言处理( NLP )就是开发能够理解人类语言的应用程序和服务。我们生活中经常会接触的自然语...原创 2019-05-16 22:29:04 · 617 阅读 · 0 评论 -
将onehot编码转成一般编码
aa = [np.argmax(l) for l in mnist.test.labels]#将onehot编码转成一般编码原创 2019-05-12 18:41:10 · 2333 阅读 · 0 评论 -
隐马尔可夫模型
本文出自作者:张锋出处:http://www.cnblogs.com/skyme/https://www.cnblogs.com/skyme/p/4651331.html什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状...转载 2019-03-07 15:37:53 · 266 阅读 · 0 评论 -
NLP自然语言处理CRF详解
本文出自原文地址:http://www.cnblogs.com/baiboy/p/crf3.html1 机器学习中的生产模型与判别模型生产式模型与判别式模型简述,条件随机场是哪种模型?有监督机器学习方法可以分为生成方法和判别方法:1)生产式模型:直接对联合分布进行建模,如:混合高斯模型、隐马尔科夫模型、马尔科夫随机场等2)判别式模型:对条件分布进行建模,如:条件随机场、支持...转载 2019-03-07 17:16:40 · 7088 阅读 · 1 评论 -
windows 10环境下CUDA9.0 安装图形驱动失败解决方案(已验证解决问题)
首先感谢作者帮助我解决问题,认为能解决问题的文章就应该被转载和推广以帮助更多的人。本文出自https://blog.youkuaiyun.com/all4git/article/details/80007035右键计算机 > 管理 > 服务和应用程序 > 服务找到 “Windows Installer”右键选择 “启动...转载 2019-03-11 09:51:37 · 6995 阅读 · 2 评论 -
贝叶斯定理
众所周知,贝叶斯定理是一种在已知其他概率的情况下求概率的方法:首先,对于贝叶斯定理,还是要先了解各个概率所对应的事件。P(A|B) 是在 B 发生的情况下 A 发生的概率;P(A) 是 A 发生的概率;P(B|A) 是在 A 发生的情况下 B 发生的概率;P(B) 是 B 发生的概率。...原创 2019-03-11 10:05:50 · 247 阅读 · 0 评论 -
关键词提取算法TF/IDF 算法
1.原创 2019-03-07 22:30:40 · 294 阅读 · 0 评论 -
关键字提取算法TextRank算法
本文出自https://www.cnblogs.com/xueyinzhe/p/7101295.html 今天要介绍的TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。1.PageRank算法 PageRank设计之初是用于Google的网页排名的,以该公司创办人拉里·...转载 2019-03-07 22:32:27 · 483 阅读 · 0 评论 -
关键字提取LSA/LSI/LDA算法
1.关键字提取LSA/LSI/LDA算法原创 2019-03-07 22:34:06 · 2373 阅读 · 0 评论 -
激活函数总结
Sigmoid函数 f(x)=1/1+e^-x 值(0-1)缺点 存在饱和问题 实现:tf.nn.sigmoid(x,name=None) 特征相差不大,需要更细微的分类判断 sigmoid效果要好一些 Tanh函数 双曲正切 tanh(x)=2Sigmoid(2x)-1 值(-1,1) 缺点 存在饱和问题 实现: tf.nn.t...原创 2019-03-16 16:52:58 · 979 阅读 · 0 评论 -
朴素贝叶斯算法原理
http://www.cnblogs.com/pinard/p/6069267.htmlhttps://www.cnblogs.com/pinard/category/894695.html原创 2019-03-08 11:19:44 · 221 阅读 · 0 评论 -
NLP自然语言处理知识点索引
语言合成开源库webrtc开源库 speex开源库 audacity开源库 音频算法开源库 语言降噪 回音消除 VAD AGC 音频均衡器/环绕音/低音增强音效算法 NLP语言处理常用算法HMM隐马尔可夫 维特比算法 jieba开源库(分词,词性标注,命名实体识别...原创 2019-03-08 11:48:11 · 646 阅读 · 0 评论 -
scikit-learn sklearn使用教程
1.Sklearn简介Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。Sklearn具有以下特点:简单高效的数据挖掘和...原创 2019-03-17 22:06:07 · 3947 阅读 · 0 评论 -
Word2vec是如何工作的?它和LDA有什么区别和联系?
Word2vec是目前最常用的词嵌入模型之一。是一种浅层的神经网络模型,他有2种网络结构,分别是CBOW(continues bag of words)和 skip-gram.Word2vec 隐狄利克雷模型(LDA),CBOW,Skip-gramWord2vec是如何工作的?CBOW的目标是根据上下文出现的词语来预测当前词的生成概率:Skip-gram模型是根据当前词来...原创 2019-03-21 23:19:57 · 2535 阅读 · 0 评论 -
在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
知识点:迁移学习(Transfer Learning),生成对抗网络,图像处理,上采样技术,数据扩充一个模型所能提供的信息一般来源于2个方面,一是训练数据中蕴含的信息,二是在模型的形成过程中(包括构造,学习,推理等),人们提供的先验信息。当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下要保证模型的效果,就需要更多的先验信息。先验信息可以作用在模型上,例如让模型...原创 2019-03-22 00:00:13 · 8955 阅读 · 0 评论 -
准确率Accuracy的局限性
前提问题分析:Hulu的奢侈品用户广告主们希望把广告定向投放给奢侈品用户。Hulu通过第三方数据平台(DMP)拿到了一部分奢侈品用户的数据,并以此为训练集合测试集,训练和测试奢侈品用户的分类模型。该模型的分类准确率超过了95%,但在实际广告投放过程中,该模型还是把大部分广告投给了非奢侈品用户,还肯能是什么原因造成的?准确率的局限性准确率是指分类正确的样本占总样本的比例:Accuar...原创 2019-03-22 12:01:42 · 2941 阅读 · 0 评论 -
机器学习算法总结知识点索引
百面机器学习算法总结索引(声明:以下所有内容及其链接内容来自于百面机器学习一书,仅供自己方便学习和复习,不做任何商业用途,所有链接内容继承本声明) 第一节:特征归一化 1.为什么需要对数值类型的特征做归一化? 2.在对数据进行预处理时,应该怎样处理类别型特征? 3.如何处理高纬度组合特征?什么是组合特征? 4. 5.有哪些文本表示模型?它们各有什么优缺点?...原创 2019-03-19 12:34:39 · 426 阅读 · 0 评论 -
mfcc
MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)数据,经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将...原创 2019-04-29 21:35:53 · 1152 阅读 · 0 评论 -
word2vec的时间复杂度
原创 2019-05-06 22:46:51 · 1002 阅读 · 0 评论 -
nlp基础知识总结
1.原创 2019-03-31 14:37:41 · 540 阅读 · 0 评论