
自然语言处理
文章平均质量分 85
Mechanotrooper
从事过计算机图形学,机器人运动规划控制,光伏新能源等不同领域。现在打算转型到NLP领域。
展开
-
Day10【基于encoder- decoder架构实现新闻文本摘要的提取】
新闻摘要生成是自然语言处理(NLP)中的一个重要任务,其目标是自动从长篇的新闻文章中提取出简洁、准确的摘要。近年来,基于深度学习的摘要生成方法已成为主流,尤其是采用架构的模型。这个架构在机器翻译、文本摘要、文档标注、多模态交互等领域取得了显著的效果。原创 2025-04-19 20:45:00 · 1409 阅读 · 0 评论 -
Day10 【基于LSTM实现自回归语言模型文本续写任务】
本文基于给定的词表,将输入的文本以字符分割为若干个词,然后基于词表将词初步序列化作为训练网络的输入序列,将词后面一个词在词表中的序号作为输入标签,取连续序列文本片段长度作为输入序列的长度。之后经过`Embedding`、`LSTM`等网络层。因为生成的词是词表中某个词,因此模型输出为已知词表上的多类别概率分布,从而实现一个简单文本的续写任务。原创 2025-04-17 18:15:00 · 1005 阅读 · 0 评论 -
Day09 【基于LSTM实现文本加标点的任务】
本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后基于词表将词初步序列化,之后经过`embedding``LSTM`等网络结构层,输出在已知类别标点符号标签上的概率分布,从而实现一个简单文本加标点任务。原创 2025-04-16 23:30:00 · 1071 阅读 · 0 评论 -
Day09【基于jieba分词和RNN实现的简单中文分词】
本文基于给定的中文词表,将输入的文本基于jieba分词分割为若干个词,词的末尾对应的标签为`1`,中间部分对应的标签为`0`,同时将分词后的单词基于中文词表做初步序列化,之后经过`embedding`和 `RNN`循环神经网络等网络结构层,最后输出在`两类别`(词内部和词边界)标签上的概率分布,从而实现一个简单中文分词任务。原创 2025-04-16 20:15:00 · 886 阅读 · 0 评论 -
Day09【基于新闻事件的命名实体抽取】
本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后基于词表将词序列化处理,之后经过若干网络层,最后输出在已知命名实体标注类别标签上的概率分布,从而实现一个简单新闻事件的命名实体识别。原创 2025-04-16 18:15:00 · 837 阅读 · 0 评论 -
Day09【基于Tripletloss实现的简单意图识别对话系统】
本文将实现基于`tripletloss`实现文本匹配,并实现简单的意图识别问答系统。原创 2025-04-15 23:00:46 · 1177 阅读 · 0 评论 -
Day08【基于预训练模型分词器实现交互型文本匹配】
本文基于预训练模型`bert`分词器`BertTokenizer`,将输入的文本以文本对的形式,送入到分词器中得到文本对的词嵌入向量,之后经过若干网络层,输出在已知2类别匹配或不匹配的概率分布,从而实现一个简单的句子对级别的匹配任务。原创 2025-04-15 23:30:00 · 1128 阅读 · 0 评论 -
Day08 【基于余弦相似度实现的表示型文本匹配】
本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后将词映射到词表的大小的词嵌入向量,而后基于不同的采样策略过网络层,得到文本的词嵌入特征向量,最后计算文本之间特征向量的余弦相似度,从而实现一个简单表示型文本的匹配方法。原创 2025-04-15 18:09:10 · 988 阅读 · 0 评论 -
Day08 【基于jieba分词实现词嵌入的文本多分类】
本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后将词映射到词表的大小的词潜入向量,之后经过网络层,输出在已知类别标签上的概率分布,从而实现一个简单文本的多分类。原创 2025-04-15 16:39:01 · 630 阅读 · 0 评论 -
Day08【基于FAQ实现单轮问答系统】
本文代码通过不同的文本匹配算法(如BM25、Word2Vec等)来实现一个基于FAQ的智能问答系统。通过加载知识库中的问题,算法会根据用户的查询返回最相关的答案或标。原创 2025-04-12 18:28:15 · 978 阅读 · 0 评论 -
Day08【使用不同的网络模型实现外卖评价情感分类】
本文通过自定义多种网络结构模型,通过对外卖评价数据处理,实现对评价数据的正负向情感分类。最终通过网格参数搜索方式,选择一组较好的网络结构参数,达到最佳分类准确率。原创 2025-04-12 16:18:03 · 994 阅读 · 0 评论 -
Day07 【手动实现bert网络结构】
本文代码通过手动实现矩阵运算来模拟 BERT 模型的核心部分,包括嵌入层、注意力机制、前馈网络、归一化层等。其主要目的是与 Hugging Face 提供的预训练 BERT 模型对比,检查自定义实现是否正确。原创 2025-04-09 00:10:41 · 800 阅读 · 0 评论 -
Day07【手动实现gru网络结构】
本节代码展示了如何使用NumPy模拟PyTorch的GRU层的计算过程。通过提取PyTorch的GRU权重,并将其转换为矩阵运算,可以深入帮助理解GRU的工作原理。原创 2025-04-08 19:16:50 · 946 阅读 · 0 评论 -
Day07【手动实现lstm网络结构】
通过手动实现 LSTM 的矩阵运算并与 PyTorch 的 LSTM 层进行对比,可以帮助我们更深入地理解 LSTM 网络的内部计算流程,尤其是如何处理时间步之间的状态更新。原创 2025-04-08 18:50:53 · 677 阅读 · 0 评论 -
Day06【贝叶斯实现文本分类】
本文基于朴素贝叶斯分类器实现给定的文本(例如新闻标题)的分类,并预测其所属的类别。原创 2025-04-05 16:36:06 · 951 阅读 · 0 评论 -
Day06【使用Word2Vec模型训练词向量】
使用Word2Vec模型训练一个词向量模型,并进行一些基本的词向量操作,比如查找相似词和进行词向量的类比。训练一个基于Word2Vec的中文词向量模型,使用jieba进行中文分词。训练好模型后,保存为文件并可以加载来进行使用。提供一个功能来进行词向量类比(例如“男人 + 母亲 - 女人”)并输出与之最相似的词。提供一个交互式命令行界面,允许用户输入词语并查找最相似的词。原创 2025-04-05 12:24:15 · 1020 阅读 · 0 评论 -
Day06【基于词向量使用svm实现文本分类】
本文基于词向量(Word2Vec),使用支持向量机(SVM)作为分类器来预测文本的类别,来实现文本分类任务。代码的功能是加载预训练的Word2Vec模型,并利用该模型将文本转化为向量,再用支持向量机(SVM)进行训练和预测,最后输出分类结果的报告。利用已训练好的 Word2Vec 模型,将新闻文本的标题转化为词向量。然后使用支持向量机(SVM)对这些词向量进行训练和分类。原创 2025-04-05 00:15:56 · 702 阅读 · 0 评论 -
Day05【实现字符串的正向最大匹配】
给定已知字符串和相关的词表集合,实现该字符串的正向最大匹配算法。原创 2025-04-04 17:25:35 · 157 阅读 · 0 评论 -
Day05【动态规划实现字符串所有切分集】
给定已知字符串和相关的词表集合,使用动态规划思想实现该字符串的所有切分方式。原创 2025-04-04 17:10:20 · 214 阅读 · 0 评论 -
Day04【判断文本中是否有某些特定字符出现】
基于pytorch的网络编写,实现一个网络完成一个简单nlp任务,判断文本中是否有某些特定字符出现。原创 2025-04-04 16:53:29 · 156 阅读 · 0 评论 -
Day03【实现一个自行构造的找规律(机器学习)任务】
规律:x是一个5维向量,判断第几个数最大,比如【2,5,4,3,1】实现一个自行构造的找规律(机器学习)任务。第2个数最大,标签为1,其他数标签为0。基于pytorch框架编写模型训练。原创 2025-04-04 16:26:13 · 204 阅读 · 0 评论 -
【手动实现梯度下降法】
最小化损失函数的方法通常采用梯度下降法,即沿着负梯度方向可以达到函数值不断下降,一直到下降到参数无法更新或损失值为极小值等停止。设定了神经网络的网络结构(特征映射层,隐含层,输出层),一旦有了输入样本,就可根据网络结构输出预测值。神经网络的训练目标是使预测值尽可能接近真实值,预测值和真实值的差异就可用损失函数描述,神经网络的学习目标即使损失函数尽可能小,求解损失函数最小值的过程就是反向传播算法,反向传播算法每一步都使用梯度下降法来更新当层的网络参数。更多详细原理可参考B站视频。更多详细推导过程参考。原创 2025-04-04 16:12:03 · 475 阅读 · 0 评论 -
MacOS M2使用MPS后端加速训练
使用MPS (Metal Performance Shaders) 后端加速训练词向量。原创 2025-04-03 22:54:26 · 446 阅读 · 0 评论