
自然语言处理
瑞行AI
这个作者很懒,什么都没留下…
展开
-
Bert文本分类
Bert是一种更合理的语言模型,基于bert预训练模型fine-tune可以完成文本分类、问答匹配等任务。本文主要记录使用bert预训练语言模型做二分类文本分类的实验过程。源码下载:https://github.com/google-research/bert预训练模型版本:(1)chinese_L-12_H-768_A-12对应BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads,原创 2019-08-18 12:42:51 · 1122 阅读 · 1 评论 -
TextCNN文本分类
textCNN网络结构textCNN 只有一层卷积,一层max-pooling, 最后将输出外接softmax 来n分类。(1)对句子分词后onehot编码,对应6*5矩阵;(2)4*5的卷积核作用后,产生3*1的feature-map;(3)map-pooling取feature-map最大值;(4)各种卷积核过滤、max-pooling后横向concat,全连接输出层。tensorflow搭建网络及测试案例#coding=utf-8import tensorflow as tfimpor原创 2019-08-15 19:04:37 · 417 阅读 · 0 评论 -
DSSM文本相似度
推荐一个Python入门学习利器http://www.kuqin.com/abyteofpython_cn/_ _ init _ _方法在类的一个对象被建立时,马上运行。这个方法可以用来对你的对象做一些你希望的初始化。#把__init__方法定义为取一个参数name(以及普通的参数self)。在这个__init__方法里,只创建了一个新的域self.name。注意name和self.n...原创 2017-09-29 16:40:57 · 819 阅读 · 1 评论 -
NLP框架
什么是自然语言处理?语言模型语料库和语言知识库词法分析句法分析语义分析词向量文本分类机器翻译信息抽取篇章分析问答系统什么是自然语言处理?计算机可以根据人类语言建模成计算机可以理解的信息,并且可以将这些信息利用起来,实现一个有用的系统。###语言模型(Bi-Gram/Tri-Gram/N-Gram)频率派:统计不同词汇出现频率,从而知道某个词汇之后出现下一个词的概率。放...原创 2019-04-01 18:15:36 · 2988 阅读 · 0 评论 -
fastText的基本原理及参数
fastText原理对于一个长度为TTT的句子为w1,w2,...,wTw_1,w_2,...,w_Tw1,w2,...,wT,假设每个词都跟其相邻的词的关系最密切,即每个词都由相邻的词决定的(CBOW模型),或每个词都决定了相邻的词(Skip-gram模型)。为了基于语料库生成模型的训练样本,选取一个长度为2c+1(目标词前后各选c个词)的滑动窗口,从语料库中抽取一个句子:将滑动窗口由左至右滑动,每移动一次,窗口中的词组就形成了一个训练样本。优化目标:哈夫曼树fastText库的使用fa原创 2019-05-26 15:04:02 · 4248 阅读 · 0 评论 -
词袋模型
在语言处理中,用向量x表示文本数据,以反映文本的各种语言属性,这称为特征提取或特征编码;而词袋模型Bag-of-words(简称BoW)就是一种可以 / 以多种方式 / 从文档中 / 对文本数据 / 进行特征提取 / 的方法。词袋是文本的表示,它涉及两件事:(1)已知单词的词汇;(2)衡量已知单词的存在。 词袋被称为单词的“ 包 ”,因为它仅关注文档中是否出现已知单词,而关于文档中单词的顺序或结...原创 2019-05-26 16:11:43 · 2242 阅读 · 0 评论 -
fastText文本分类
http://fasttext.apachecn.org/#/doc/zh/supervised-tutorial原创 2019-05-27 12:27:19 · 1415 阅读 · 0 评论 -
word2vec-google code
Google code word2vec toolkittooklit project introduction把词看成向量空间上的一个点,distance计算向量空间上点与点的距离代码及数据集下载google-code word2vectext8数据集训练...原创 2019-09-19 15:17:18 · 1490 阅读 · 0 评论