
NLP
文章平均质量分 89
数学工具构造器
这个作者很懒,什么都没留下…
展开
-
fastNLP源码分析
文章目录CNNCharEmbeddingCNNCharEmbedding有空提issuetxt = ["中华 人民 共和国", "中央 人民 政府"]wordsOut[2]: tensor([[3, 2, 4], [5, 2, 6]])根据words_to_chars_embedding这个lookup-table转charschars.shapeOut[3]: torch.Size([2, 3, 7])# 2 batch 3 words 7 char原创 2021-01-05 18:38:38 · 757 阅读 · 0 评论 -
HanLP学习笔记
设置分词结果词性显示HanLP.Config.ShowTermNature = false; // 分词结果不显示词性通过构造函数传入多个词典String dict1 = "data/dictionary/CoreNatureDictionary.mini.txt";String dict2 = "data/dictionary/custom/上海地名.txt ns";segment = new DoubleArrayTrieSegment(dict1, dict2);开启POS-taggi原创 2020-11-18 10:31:57 · 738 阅读 · 0 评论 -
Transformer
https://zhuanlan.zhihu.com/p/80986272http://nlp.seas.harvard.edu/2018/04/03/attention.htmlhttps://zhuanlan.zhihu.com/p/54675834超参数VariablesvalueNNN6dmodeld_{model}dmodel512dffd_{ff}dff2048hhh8dkd_kdk64dvd_vdv64Pdro原创 2020-11-16 18:54:14 · 278 阅读 · 0 评论 -
attention-is-all-you-need-pytorch 源码阅读
文章目录训练数据流train.train_epochTransformerEncoderEncoderLayerMultiHeadAttentionScaledDotProductAttentionPositionwiseFeedForward训练数据流train.train_epoch对training_data进行迭代, 产生batch, 其中有src_seq, trg_seqsrc_seq.shapeOut[11]: torch.Size([256, 32])src_seqOut[12]原创 2020-11-16 16:24:40 · 514 阅读 · 0 评论 -
阅读pyTorch的LSTM实现源码
文章目录RNNBaseeconstruction functionRNNBaseeLSTM class is inherit RNNBase , which located in torch.nn.modules.rnn.RNNBaseclass RNNBase(Module): __constants__ = ['mode', 'input_size', 'hidden_size', 'num_layers', 'bias', 'batch_firs原创 2020-11-14 19:08:02 · 677 阅读 · 0 评论 -
Text-Classification-Models-Pytorch源码阅读
https://github.com/AnubhavGupta3377/Text-Classification-Models-Pytorchgit clone git@github.com:AnubhavGupta3377/Text-Classification-Models-Pytorch.git文章目录Model_TextCNNModel_CharCNNModel_TextRNNModel_TextCNN使用了GloVe的词向量词向量那一维是通道,词的那一维在做卷积(相乘相加)Model_原创 2020-11-14 18:24:40 · 253 阅读 · 0 评论 -
GloVe源码阅读
initialize_parameterslong long W_size = 2 * vocab_size * (vector_size + 1); // +1 to allocate space for biassrc/glove.c:185for (b = 0; b < vector_size; b++) diff += W[b + l1] * W[b + l2]; // dot product of word and context word vectordiff += W[原创 2020-11-10 13:20:47 · 254 阅读 · 0 评论 -
LDA2vec源码阅读
特别注意spacy的版本是1.9用preprocess函数进行预处理20newsgroups/train.py:8data = np.load('data.npy') # (1023189, 12)unigram_distribution = np.load('unigram_distribution.npy') # (7460, )word_vectors = np.load('word_vectors.npy') # (7460, 50)doc_weights_init = np.lo原创 2020-11-09 19:56:54 · 831 阅读 · 0 评论 -
PLSA
原创 2020-11-09 16:20:44 · 277 阅读 · 0 评论 -
NLP学习
项目地址git@github.com:graykode/nlp-tutorial.gitNNLM首先看数据是个啥 sentences = ["i like dog", "i love coffee", "i hate milk"]目的, 用 i like 预测 dog , 用i love 预测 coffe其实就是语言模型(下式为n-gram)$P^(wt∣w1t−1)≈P^(wt∣wt−n+1t−1)\hat{P}\left(w_{t} \mid w_{1}^{t-1}\right)原创 2020-10-30 14:41:35 · 255 阅读 · 0 评论 -
Titanic数据集:仅用名字列就取得0.8的正确率
文章目录前言表格机器学习的4类特征text 特征组数据处理载入数据数据清洗分词删除低频词建模sklearnTF-IDFNMFTruncatedSVDgensimLDALSIRPHDP前言表格机器学习的4类特征最近在思考表格机器学习,或者说对表格数据、结构化数据的有监督机器学习的工作流。我认为在大部分场景下,大概有4类特征:categoricalnumericaldatetext...原创 2020-05-03 09:47:45 · 733 阅读 · 0 评论 -
Transformer
好像是qi 服从(0,1)正态分布,q * k 服从 (0,d)正态分布,除以根号d,就保证得到的乘积仍然满足N(0,1)原创 2020-01-20 22:25:41 · 360 阅读 · 0 评论 -
离线下载nltk_data并安装
下载https://github.com/nltk/nltk_data提供一个我在2019/5/10下载的一个百度网盘链接:链接:https://pan.baidu.com/s/1VzVzIxMHD-xfqwvhiV1zmQ 密码:vz7yWindows安装Linux安装sudo mv nltk_data-gh-pages.zip /usr/lib/cd /usr/lib/s...原创 2019-05-10 11:49:33 · 3077 阅读 · 3 评论