
NLP自然语言处理
文章平均质量分 78
NLP自然语言处理
MatpyMaster
有问题夹魏,评论及私聊不回!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多模态情感分析——基于多尺度自适应跨模态注意力融合(MACAF)的三模态情感分析
CMU-MOSI和CMU-MOSEI:情感标注是对每句话的7分类的情感标注,作者还提供了了2/5/7分类的标注。情绪标注是包含高兴,悲伤,生气,恐惧,厌恶,惊讶六个方面的情绪标注。在本设计中,首先采用了Transformer模块分别对文本、音频和图像特征进行特征编码,然后将通过文本在多个尺度上的特征对图像、音频进行自适应注意力交互,最后将通过交叉注意力进行特征融合。CMU-MOSI、CMU-MOSEI和CH-SIMS数据集的模态有3种(语言,视觉,声音),数据集使用的是未对齐原始raw数据特征。原创 2025-03-26 17:01:39 · 1657 阅读 · 0 评论 -
NLP实战项目(6)——Bi-LSTM-CRF实体识别
前向的LSTM与后向的LSTM结合成BiLSTM。前向的LSTML,依次输入“我”,“爱”,“中国”得到三个向量{hL0,hL1,hL2}。最后将前向和后向的隐向量进行拼接得到{[hL0,hR2],[hL1,hR1],[hL2,hR0]},即{h0, h1, h2}。LSTM(Long_short_term_memory),使用LSTM模型可以更好的捕捉到较长距离的依赖关系,通过训练可以学到记忆那些信息和遗忘那些信息, 能解决梯度爆炸和梯度弥散问题,可以处理更长的文本数据。2、Bi-LSTM-CRF模型。原创 2025-03-26 16:51:19 · 295 阅读 · 0 评论 -
NLP实战项目(5)——Bi-LSTM实体识别
前向的LSTM与后向的LSTM结合成BiLSTM。前向的LSTML,依次输入“我”,“爱”,“中国”得到三个向量{hL0,hL1,hL2}。后向的LSTMR依次输入“中国”,“爱”,“我”得到三个向量{hR0,hR1,hR2}。最后将前向和后向的隐向量进行拼接得到{[hL0,hR2],[hL1,hR1],[hL2,hR0]},即{h0, h1, h2}。数据集源于论文Chinese NER using Lattice LSTM,从新浪财经上爬取,包括中国股市上市公司高级管理人员的简历。”即可获取完整源码。原创 2025-03-26 16:49:40 · 453 阅读 · 0 评论 -
NLP实战项目(4)——LSTM实体识别
数据集源于论文Chinese NER using Lattice LSTM,从新浪财经上爬取,包括中国股市上市公司高级管理人员的简历。CoNLL 格式(首选 BIOES 标签方案),每个字符的标签为一行。LSTM(Long_short_term_memory),使用LSTM模型可以更好的捕捉到较长距离的依赖关系,通过训练可以学到记忆那些信息和遗忘那些信息, 能解决梯度爆炸和梯度弥散问题,可以处理更长的文本数据。appdesigner,gui设计、simulink仿真......希望能帮到你!原创 2025-03-26 16:48:28 · 206 阅读 · 0 评论 -
NLP实战项目(3)——TextCNN结合BERT进行文本分类
其中训练集一共有 180000 条,验证集一共有 10000 条,测试集一共有 10000 条。其类别为 finance、realty、stocks、education、science、society、politics、sports、game、entertainment 十个类别。如果使用英文数据集则使用bert-base-uncased,如果是中文数据集则使用bert-base-chinese。appdesigner,gui设计、simulink仿真......希望能帮到你!进入下面公众号聊天窗口回复“原创 2025-03-26 16:46:49 · 298 阅读 · 0 评论 -
NLP实战项目(2)——BERT文本分类
1、数据集介绍采用了清华NLP组提供的THUCNews新闻文本分类数据集的子集。其中训练集一共有 180000 条,验证集一共有 10000 条,测试集一共有 10000 条。其类别为 finance、realty、stocks、education、science、society、politics、sports、game、entertainment 十个类别。2、BERT模型BERT是Bidirectional Encoder Representations from Transformers的缩写,是一种原创 2025-03-26 16:45:26 · 495 阅读 · 0 评论 -
NLP实战项目(1)——TextCNN文本分类
采用了清华NLP组提供的THUCNews新闻文本分类数据集的子集。其中训练集一共有 180000 条,验证集一共有 10000 条,测试集一共有 10000 条。其类别为 finance、realty、stocks、education、science、society、politics、sports、game、entertainment 十个类别。TextCNN 由 输入层、卷积层、池化层、全连接层组成,整体架构与计算机视觉中的 CNN 模型类似。进入下面公众号聊天窗口回复“2、TextCNN模型。原创 2025-03-26 16:43:40 · 369 阅读 · 0 评论 -
多模态情感分析自研代码——基于Transformer-Lstm-交叉注意力进行三模态情感分析
(1)下载地址html(2)模态介绍CMU-MOSI数据集和CMU-MOSEI数据集的模态有3种(语言,视觉,声音),数据集使用的是已对齐原始raw数据特征。(3)标签介绍既有情感标注又有情绪标注。情感标注是对每句话的7分类的情感标注,作者还提供了了2/5/7分类的标注。情绪标注是包含高兴,悲伤,生气,恐惧,厌恶,惊讶六个方面的情绪标注。数据集是多标签特性,即每一个样本对应的情绪可能不止一种,对应情绪的强弱也不同,在[-3~3]之间。(4)评价标准。原创 2025-02-02 09:10:56 · 2163 阅读 · 0 评论 -
大模型QLoRA微调——基于Qwen2-7B的自动化病历摘要生成系统
该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。为此,本项目基于 Qwen-7B大语言模型,通过QLoRA微调,使其从医疗文档中识别并提取这些信息。QLoRA 在不影响模型性能的前提下,将模型参数压缩为 4-bit 格式,并结合 LoRA 微调技术,进一步减少显存占用和计算资源消耗。是一种低秩微调方法,用于在大模型中插入低秩矩阵,冻结原始模型参数,只微调插入的权重部分,显著减少了训练参数。原创 2024-12-17 11:01:46 · 1803 阅读 · 0 评论 -
大模型微调bitsandbytes报错(Windows有关cuda版本等)
设计、matlab appdesigner,gui设计、simulink仿真......希望能帮到你!大语言模型(LLaMa、qwen等)进行微调时,考虑到减少显存占用,会使用如下方式加载模型。小编会不定期发布相关设计内容包括但不限于如下内容:信号处理、通信仿真、原创 2024-12-13 10:38:30 · 2077 阅读 · 0 评论 -
加速网络收敛——BN、LN、WN与selu
最理想的结果就是让每一层输出的激活值为零均值、单位方差,从而能够使得张量在传播的过程当中,不会出现covariant shift,保证回传梯度的稳定性,不会有梯度爆炸或弥散的问题。通过对weight进行normalization,可以保证在梯度回传的时候,如果梯度越noisy(梯度越大),v的norm就越大,那么g/||v||就越小,从而就会抑制梯度。BN对某一层激活值做batch维度的归一化,也就是对于每个batch,该层相应的output位置归一化所使用的mean和variance都是一样的。原创 2024-07-31 21:32:20 · 510 阅读 · 0 评论 -
多模态情感分析——基于交叉多头注意力CMA进行图文多模态融合(含MVSA数据集)
由两个独立的数据集组成,分别是MVSA-Single数据集和 MVSA-Multi数据集,前者的每条图文对只有一个标注,后者的每条图文对由三个标注者给出。删除 MVSA-Single 数据集中图片和文字标注情感的正负极性不同(存在positive和negative)的图文对,剩余的图文对中,如果图片或者文本的情感有一者为中性(neutral),则选择另一个积极或者消极的标签作为该图文对的情感标签,最终得到4511个图文对。图像处理模块采用预训练的ResNet系列模型,提取图像特征,并进行特征变换。原创 2024-06-30 20:46:10 · 3219 阅读 · 1 评论 -
KAN网络最全解析——比肩MLP和Transformer?
如果你想要进一步了解更多的相关知识,原创 2024-05-11 21:28:29 · 5922 阅读 · 0 评论 -
CLIP大模型图文检索——原理解读及代码实现
例如,对于ImageNet的类别,可以将其转化为类似"A photo of a {object}"这样的句子,对于ImageNet的1000个类别,就可以生成1000个这样的句子。推理时,将需要分类的图像送入图像编码器以获取特征,然后计算图像特征与1000个文本特征的余弦相似度,选择最相似的文本特征对应的句子,从而完成分类任务。在推理过程中,给定一张图片,通过图像编码器可得到该图片的特征。CLIP的训练过程是基于图像和文字配对的数据,其中图像输入经过图像编码器得到特征,而文本输入则经过文本编码器得到特征。原创 2024-04-13 08:03:02 · 3245 阅读 · 0 评论 -
BERT中文文本分类项目实战合集(含完整代码)
如果你想要进一步了解更多的相关知识,建议复制关键词回复,不出错哦~~建议复制关键词回复,不出错哦~~建议复制关键词回复,不出错哦~~建议复制关键词回复,不出错哦~~建议复制关键词回复,不出错哦~~建议复制关键词回复,不出错哦~~建议复制关键词回复,不出错哦~~建议复制关键词回复,不出错哦~~建议复制关键词回复,不出错哦~~】即可免费领取安装包。】即可免费领取安装包。】即可免费领取安装包。】即可免费领取安装包。】即可免费领取安装包。】即可免费领取安装包。】即可免费领取安装包。】即可免费领取安装包。原创 2024-02-27 17:15:09 · 1383 阅读 · 0 评论 -
多模态情感分析——多模态联邦学习UTMP源码(2023ArXiv)
设计了HA-Fedformer,这是一种基于变压器的新型模型,可以在客户端仅使用单模态数据集进行单模态训练,并通过聚合多个客户端的知识来进行多模态测试,以提高准确性。均方误差(MSE)、平均绝对误差(MAE)、Pearson相关性(Corr)、二元精度(Acc-2)、F-Score(F1)和多级精度(Acc-7)范围从-3到3。第二种,负类和正类的范围分别为[-3,0)和(0,3]。CMU-MOSI数据集和CMU-MOSEI数据集的模态有3种(语言,视觉,声音),数据集使用的是已对齐原始raw数据特征。原创 2024-01-09 09:03:03 · 1863 阅读 · 0 评论 -
多模态情感分析早期融合——基于CMU-MOSI和CMU-MOSEI数据集(文末获取源码)
在第一种,负类的标注范围为[-3,0),而非负类的标注范围为[0,3]。情绪标注是包含高兴,悲伤,生气,恐惧,厌恶,惊讶六个方面的情绪标注。在AEFT方法中,同样使用使用三个编码器(encoders),并使用Transformer和MLP模型构建了头部,并使用直接拼接的方法进行融合。在AEF方法中,使用三个编码器(encoders),然后使用GRU和MLP模型构建了头部(head),并使用直接拼接的方法进行融合。模态有3种(语言,视觉,声音),数据集使用的是已对齐原始raw数据特征。原创 2024-01-05 17:59:57 · 3702 阅读 · 0 评论 -
多模态情感分析——基于CMU-MOSI和CMU-MOSEI数据集(文末获取源码)
而且在视频中,由于口语的易变性以及伴随的手势和和声音,容易导致的模态内的动态不稳定。首先,采用早融合策略 将各模态特征进行拼接,然后将拼接的特征输入分类器中,并且每个模态的特征也单独输入 分类器中,最终得到所有组合的分类结果,并将所有分类结果进行晚融合策略。提出了一种新的模型Tensor Fusion Network(张量融合网络,TFN),TFN能够端到端地学习模态内和模态间的动态,采用一种新的多模态融合方法(张量融合)对模态间动态进行建模,模态内动态则通过三个模态嵌入子网络进行建模。原创 2024-01-05 17:51:05 · 13864 阅读 · 7 评论 -
多模态情感分析——自注意力机制进行多模态融合
除了多模态处理外,该模型还支持单一模态的处理,即只有文本输入或只有图像输入。接下来,模型将文本和图像的隐藏状态进行拼接,构成共同的特征表示。通过设置attention_mask,模型实现了对文本中padding部分的处理,并使用self-attention机制进行多模态融合。介绍了一种基于BERT和ResNet的多模态模型,该模型在图像和文本信息上进行联合训练,实现了卓越的性能。最后,模型分别提取多模态融合后的图像和文本特征,并通过线性变换进行分类,得到最终的输出。(1)Twitter-15和17数据集。原创 2024-01-02 21:16:33 · 5057 阅读 · 0 评论 -
文本分类(情感分析)——中文数据集汇总
会不定期发布相关设计内容包括但不限于如下内容:信号处理、通信仿真、算法设计、matlab appdesigner,gui设计、simulink仿真......希望能帮到你!原创 2023-11-13 09:05:26 · 18645 阅读 · 2 评论 -
BERT文本分类——基于simplifyweibo_4_moods微博数据集
当truncation参数设置为True时,如果输入文本长度超过了max_length,将会进行截断操作;如果输入文本的长度超过了max_length,则会进行截断(truncation)以确保序列的长度不超过max_length。如果输入文本的长度不足max_length,将会进行填充(padding)以使序列长度一致。填充后的序列长度将与max_length参数指定的长度一致。对于不足max_length长度的序列,进行填充。t:填充后的序列长度将与最长的序列长度一致。,取得了较好的结果。原创 2023-11-10 16:51:46 · 3391 阅读 · 7 评论 -
BERT文本分类——基于toutiao今日头条新闻数据集
训练曲线和测试结果,并且得到了训练权重,喜欢的小伙伴可关注公众号回复“BERT美团”获取源代码和训练好的权重文件。_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词。原始数据有382688条,需要训练时间很久,小编只选了1600条,需要的小伙伴自己用服务器去跑吧!经过10轮训练,训练结果如下,可以看到效果已经很不错了。然而当数据量骤增,分类目标较多的时候,上述模型就不再使用,这时就需要将数据放到。”,即可获取源代码和训练好的权重文件。原创 2023-11-09 20:40:02 · 5180 阅读 · 6 评论 -
BERT文本分类——基于美团外卖评论数据集
BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以能生成深度的双向语言表征。BERT论文发表时提及在11个NLP(Natural Language Processing,自然语言处理)任务中获得了新的state-of-the-art的结果。原创 2023-11-08 19:05:48 · 7073 阅读 · 6 评论 -
多模态情感分析——MVSA数据集
删除 MVSA-Single 数据集中图片和文字标注情感的正负极性不同(存在positive和negative)的图文对,剩余的图文对中,如果图片或者文本的情感有一者为中性(neutral),则选择另一个积极或者消极的标签作为该图文对的情感标签,最终得到4511个图文对。采用投票机制,即统计情感极性标注出现次数最多的作为标签,如果出现两种标签各有三个的情况则进行删除,最终得到16779个图文对。,前者的每条图文对只有一个标注,后者的每条图文对由三个标注者给出。数据集包含 5,129 条图文对(原创 2023-11-06 13:27:36 · 5804 阅读 · 6 评论 -
多模态情感分析——Twitter15和Twitter17数据集
将原始的train、dev、test合并到一起,共计5338条,然后将第一列的index作为图片和文本的名字,标签从数字转换为字符串,最终得到了10676个图文对,以及一个train.txt用来保存文件名和标签。将原始的train、dev、test合并到一起,共计5972条,然后将第一列的index作为图片和文本的名字,标签从数字转换为字符串,最终得到了11944个图文对,以及一个train.txt用来保存文件名和标签。(2)第二列是情感标签(0表示负面,1表示中性,2表示正面);(1)第一列是索引;原创 2023-11-06 13:24:40 · 8544 阅读 · 0 评论 -
多模态特征融合——基于BERT和ResNet152模型
它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以能生成深度的双向语言表征。等四名华人提出,通过使用ResNet Unit成功训练出了152层的神经网络,并在ILSVRC2015比赛中取得冠军,在top5上的错误率为3.57%,同时参数量比VGGNet低,效果非常突出。ResNet的结构可以极快加速神经网络的训练,模型的准确率也有比较大的提升。如果你想要进一步了解更多的相关知识,原创 2023-11-06 13:19:25 · 3703 阅读 · 0 评论 -
NLP笔记(9)——小白实现GPT中文对话系统
基于中文青云数据集的GPT聊天机器人!原创 2023-07-25 18:32:57 · 1455 阅读 · 4 评论 -
NLP笔记(8)——轻松构建Seq2Seq模型,保姆级教学!
手把手构建Seq2Seq模型!!!原创 2023-07-25 18:25:48 · 2354 阅读 · 0 评论 -
NLP笔记(7)——循环神经网络实现文本情感分类模型
利用卷积神经网络实现文本情感分类原创 2023-07-25 12:06:18 · 1749 阅读 · 0 评论 -
NLP笔记(6)——文本情感分类模型的初级实现
IMDB数据集进行情感分类原创 2023-07-16 20:10:33 · 2031 阅读 · 6 评论 -
NLP笔记(5)——Pytorch实现手写数字识别
文末附完整代码!!!原创 2023-07-14 18:59:44 · 2391 阅读 · 0 评论 -
NLP笔记(4)——Pytorch基础模块
向前计算和梯度运算、PyTorch常用API、常见优化算法、如何在GPU上运行原创 2023-07-14 18:54:23 · 204 阅读 · 0 评论 -
NLP笔记(3)——PyTorch的基本使用
如果你想要进一步了解更多的相关知识,原创 2023-07-25 18:41:09 · 208 阅读 · 0 评论 -
NLP笔记(2)——PyTorch的详细安装
如果你想要进一步了解更多的相关知识,原创 2023-07-09 17:38:22 · 1144 阅读 · 0 评论 -
NLP笔记(1)——深度学习和神经网络
在生物神经网络中,每个神经元与其他神经元相连,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;人工神经网络(Artificial Neural Network,ANN),简称神经网络(Neural Network)或类神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型,用于对函数进行估计或近似。由于每一个神经元都会产生一个标量结果,所以单层神经元的输出是一个向量,向量的维数等于神经元的数目。深度学习需要大量的训练数据集,会有更高的效果。原创 2023-07-09 17:30:02 · 482 阅读 · 0 评论