自然语言处理
文章平均质量分 92
X.AI666
韩国高丽大学人工智能系硕士在读
Pattern recognition & machine learning lab(NLP)
INTJ
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
YouTube评论情感分析项目84%正确率:基于BERT的实战复现与原理解析
本文介绍了一个基于BERT预训练模型的YouTube评论情感分类项目。项目采用bert-base-uncased模型,通过文本分词、BERT嵌入和全连接层实现三分类(积极/消极/中性)。关键技术包括数据处理、标签编码、加权随机采样以及模型训练评估流程。实验结果显示验证集准确率达84%,F1分数0.81,其中积极评论识别效果最佳。项目提供完整的代码实现和复现指南,支持GPU加速和API服务化部署,适用于社交媒体舆情分析等场景。中文任务可替换为中文BERT模型,保持相同技术流程。原创 2025-10-25 14:45:36 · 803 阅读 · 1 评论 -
真假新闻分类项目99%正确率全流程详解(附原理/代码/部署)
本项目基于4.5万条新闻数据,采用深度学习技术构建了一个高精度的假新闻检测系统。通过双向LSTM模型结合GloVe预训练词向量,实现了99.88%的测试准确率。系统包含完整的文本预处理流程(小写转换、去停用词等)、词向量嵌入层和深度学习模型架构。项目提供了详细的环境配置指南、代码实现和可视化结果,便于复现和部署。该方案验证了NLP技术在虚假信息识别中的有效性,建议进一步扩展数据集以验证模型泛化能力。原创 2025-10-25 14:35:39 · 794 阅读 · 0 评论 -
全面解析自然语言处理(NLP):基础、挑战及应用前景
自然语言处理(NLP)是人工智能和计算语言学的一个分支,致力于使计算机能够理解、解释和生成人类语言。这篇博文将深入探讨自然语言处理的基础知识、挑战、典型任务及其广泛的应用前景。自然语言处理致力于使计算机理解和生成自然语言。其本质在于结构预测,即从输入的自然语言中提取出有用的结构化信息。例如,从句子“The rat ate cheese”中提取出其句法结构。结构预测的过程涉及到多个层次的语言分析,包括词法分析、句法分析和语义分析等。原创 2024-06-30 18:37:10 · 1922 阅读 · 0 评论 -
CNN和Transformer创新结合,模型性能炸裂!
此研究方向的发展不仅推动了深度学习技术的进步,也为实际应用提供了更丰富的解决方案。- 单分支CNN与transformer的结合:SCTNet创新地将单分支CNN与训练时使用的transformer语义分支结合起来,既保持了推理时的高效率,又能够利用transformer捕获丰富的语义信息。- 混合网络架构:提出了一种结合卷积神经网络(CNN)和Transformer的混合超分辨率(SR)网络,以聚合丰富的特征,包括CNN的局部特征和Transformer捕获的长距离多尺度依赖性。原创 2024-06-17 12:36:23 · 3880 阅读 · 0 评论 -
了解TF-IDF:一种文本分析的强大工具
TF-IDF是一种用来评估一个词语对一个文件集或一个语料库中的一个文件的重要程度的统计方法。它的核心思想是:如果一个词语在一篇文章中出现的频率高,同时在其他文章中出现的频率低,那么这个词语就被认为具有很好的区分性,能够有效地代表该篇文章的内容。原创 2024-06-14 08:00:00 · 1271 阅读 · 0 评论 -
【自然语言处理】实验6:面向新冠肺炎的社会计算应用
新冠肺炎疫情牵动着我们每一个人的心,在这个案例中,我们将尝试用社会计算的方法对疫情相关的新闻和谣言进行分析,助力疫情信息研究。本次作业为开放性作业,我们提供了疫情期间的社交数据,鼓励同学们从新闻、谣言以及法律文书中分析社会趋势。(提示:运用课上学到的方法,如情感分析、信息抽取、阅读理解等分析数据)原创 2024-02-23 12:00:00 · 1304 阅读 · 0 评论 -
【自然语言处理】:实验5,司法阅读理解
裁判文书中包含了丰富的案件信息,比如时间、地点、人物关系等等,通过机器智能化地阅读理解裁判文书,可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。 本次任务覆盖多种法律文书类型,包括民事、刑事、行政,问题类型为多步推理,即对于给定问题,只通过单句文本很难得出正确回答,模型需要结合多句话通过推理得出答案。原创 2024-02-22 12:00:00 · 2258 阅读 · 0 评论 -
【自然语言处理】:实验4答案,预训练语言模型实现与应用
这里使用原代码 100%数据运行 200 轮训练,结果如下从图中可以看出在 200 轮训练完成后在 dev set 上的 F1 结果是 0.5472,AUC 结果为 0.5049然后我运行 test.py 进行 testset 的文件输出,这里设置的是预测准确率大于0.2 的实体关系对才会被输出,最终提交到网站上结果如下所示。原创 2024-02-21 12:00:00 · 1505 阅读 · 0 评论 -
【自然语言处理】:实验4布置,预训练语言模型实现与应用
BERT是目前最具代表性的预训练语言模型,如今预训练语言模型的新方法都是基于BERT进行改进的。研究者如今将各种预训练模型的使用代码整合到了`transformers`这个包当中,使得我们可以很方便快捷地使用各种各样的预训练语言模型。在本实验中,我们也将调用`transformers`来使用BERT完成文档级别关系抽取的任务。基于`transformers`的基础后,我们的主要工作就是将数据处理成BERT需要的输入格式,以及在BERT的基础上搭建一个能完成特定任务的模型。原创 2024-02-18 16:23:23 · 1207 阅读 · 0 评论 -
【自然语言处理】实验3,文本情感分析
情感分析旨在挖掘文本中的主观信息,它是自然语言处理中的经典任务。在本次任务中,我们将在影评 文本数据集(Rotten Tomato)上进行情感分析,通过实现课堂讲授的模型方法,深刻体会自然语言处 理技术在生活中的应用。同学们需要实现自己的情感分析器,包括特征提取器(可以选择词袋模型、词向量模型和预训练模 型)、简单的线性分类器以及梯度下降函数。随后在数据集上进行训练和验证。我们提供了代码框架, 同学们只需补全 model.py 中的两个函数。原创 2024-02-17 12:26:40 · 2068 阅读 · 0 评论 -
【自然语言处理】seq2seq模型—机器翻译
seq2seq是神经机器翻译的主流框架,如今的商用机器翻译系统大多都基于其构建,在本案例中,我们将使用由NIST提供的中英文本数据训练一个简单的中英翻译系统,在实践中学习seq2seq的具体细节,以及了解机器翻译的基本技术。从根本上讲,机器翻译需要将输入序列(源语言中的单词)映射到输出序列(目标语言中的单词)。正如我们在课堂上讨论的那样,递归神经网络(RNN)可有效处理此类顺序数据。机器翻译中的一个重要难题是输入和输出序列之间没有一对一的对应关系。即,序列通常具有不同的长度,并且单词对应可以是不平凡的(例如原创 2024-02-16 11:58:44 · 1972 阅读 · 0 评论 -
【自然语言处理】实验1结果:Word2Vec & TransE案例
A,Word2vec实现A,Word2vec实现原始模型参数如下默认训练 5 个周期,CBOW 模型使用原代码运行得到结果如下在这里设置了设置不同的值,分为五档,分别为50, 100, 150 ,200, 250 通过可视化结果看出,随着 vector_size变大,score也在提升,但是在词向量维度为200 时候 score达到最高然后下降,比原先代码score为0.689效果好了不少。时间方面增加词向量维度运行时间有一定增加,但是并不是很多在窗口大小这个参数上我设置了。原创 2024-02-14 12:00:00 · 1480 阅读 · 1 评论 -
【自然语言处理】:实验1布置,Word2Vec&TranE的实现
Word2Vec是词嵌入的经典模型,它通过词之间的上下文信息来建模词的相似度。TransE是知识表示学习领域的经典模型,它借鉴了Word2Vec的思路,用“头实体+关系=尾实体”这一简单的训练目标取得了惊人的效果。本次任务要求在给定的框架中分别基于Text8和Wikidata数据集实现Word2Vec和TransE,并用具体实例体会词向量和实体/关系向量的含义。原创 2024-02-13 12:00:00 · 1401 阅读 · 1 评论
分享