
NLP
文章平均质量分 55
自然语言处理相关
一个叫欧维的程序员在此写博客
这个作者很懒,什么都没留下…
展开
-
文本相似度 Text Similarity
文本相似度原创 2022-08-08 16:10:48 · 774 阅读 · 0 评论 -
通俗理解TF-IDF与TextRank
通俗理解TF-IDF与TextRank本文参考以下博客整理得到,侵删参考博客:机器学习:生动理解TF-IDF算法通俗易懂理解——TF-IDF与TextRankTF-IDFTF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。TF,Term Frequency:词频,表示关键词 w 在文档 Di 中出现的频率count(原创 2022-03-09 15:54:44 · 742 阅读 · 0 评论 -
bert4keras加载BERT模型并获取文本字向量、句向量CLS
bert4keras加载BERT模型并获取文本字向量、句向量CLS环境依赖tensorflow2.3+bert4keras开源BERT模型下载BERT模型https://github.com/ymcui/Chinese-BERT-wwm ,BERT-wwm-ext, Chinese TF版模型解压后文件目录如下:bert_config.json:保存的是BERT模型的一些主要参数设置bert_model.ckpt.xxxx:这里有多个文件,但导入模型只需要bert_model.ckpt这个原创 2022-03-02 10:06:35 · 4480 阅读 · 7 评论 -
gensim---word2vec加载开源预训练词向量
Gensim—word2vec加载开源预训练词向量其它相关博客:词向量模型Word2Vec模型构建训练加载预训练词向量并使用腾讯AI Lab预训练词向量:https://ai.tencent.com/ailab/nlp/zh/embedding.html本文下载其中最小的文件,点此下载from gensim.models import KeyedVectors# 文件解压,调用txt文件txt_file_path = ""model = KeyedVectors.load_word2ve原创 2022-02-25 11:09:17 · 3047 阅读 · 0 评论 -
Keras----Embedding层原理
Embedding()参数keras.layers.Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input...原创 2020-05-07 11:19:34 · 1085 阅读 · 0 评论 -
Attention注意力机制
对于注意力机制一知半解,便网上查阅资料来进行了解,记录以防日后遗忘。包含各博主文章内容,附链接。博客、文章链接:Attention注意力机制–原理与应用浅谈Attention注意力机制及其实现、带注意力机制的Seq2Seq翻译模型Attention注意力机制介绍自然语言处理中的自注意力机制(Self-attention Mechanism)什么是Attention注意力机制?简要描述...原创 2020-04-27 11:06:55 · 992 阅读 · 0 评论 -
gensim---gensim构建词向量模型Word2Vec
利用库Gensim构建向量模型Word2Vec数据准备格式语料:每句话内容,词之间相互以空格隔开模型构建代码:from gensim.models import word2vecclass Solution(): def __init__(self): # 语料路径 self.corpus_path = r"xxx\corpus.txt" ...原创 2020-01-06 10:05:33 · 966 阅读 · 1 评论