
NLP
自然语言处理
EnjoyFailure
这个作者很懒,什么都没留下…
展开
-
Transformer
它在每个样本的所有特征上进行归一化,使得输出的均值为0,标准差为1。Q,K,V是由输入的词向量x经过线性变换得到的,其中各个矩阵w可以经过学习得到, 这种变换可以提升模型的拟合能力, 得到的Q,K,V 可以理解为。但如果引入Attention,就需要将这组V分别乘以一组权重α \alphaα,那么就可以做到有重点性地关注输入特征,如同人的注意力一般。当我们直接把一组V输入到网络中进行训练,那这个网络就是没有引入Attention机制的网络。,但目前我们现在无需关注是如何产生这组向量的。原创 2023-10-29 22:56:56 · 89 阅读 · 0 评论 -
jieba中文分词
用于某些无法识别的特定名词jieba.load_userdict('绝对路径')# 注意需要txt文件,且是UTF-8编码# 也可以用 jieba.add_word('词语') 来添加特定词汇注意事项:1. 词典中一行包括:词语、频率、词性。2. 文件最好使用 utf-8 编码,不要用 window 自带的记事本编辑,可以用 notepad++ 等软件。3. jieba.load_userdict(file_name) 必须在 jieba.cut 之前执行。原创 2023-10-03 16:58:53 · 97 阅读 · 1 评论 -
NLP——spacy
导入包(要先下载spacy和对应的语言模型)原创 2023-10-02 18:06:39 · 95 阅读 · 1 评论 -
NLP——NLTK工具包
目录分词停用词过滤词性标注命名实体识别下载相对应的模块:import nltknltk.download()导入包: 分词操作: 停用词过滤 导入包: 停用词过滤操作: 词性标注 导入包: 词性标注操作: 命名实体识别 导入包: 实体识别操作:原创 2023-10-01 20:27:34 · 147 阅读 · 0 评论