
nlp快速入门
文章平均质量分 76
nlp快速入门
一颗铜豌豆
这个作者很懒,什么都没留下…
展开
-
BERT文本分类实战----美团外卖评论情绪分类
HuggingFace 提供了巨大的模型库,虽然其中的很多模型性能表现出色,但这些模型往往是在广义的数据集上训练的,缺乏针对特定数据集的优化,所以在获得一个合适的模型之后,往往还要针对具体任务的特定数据集进行二次训练,这就是所谓的迁移学习。迁移学习的训练难度低,要求的数据集数量少,对计算资源的要求也低。HuggingFace 提供了训练工具,统一了模型的再训练过程,使调用者无须了解具体模型的计算过程,只需针对具体的任务准备好数据集,便可以再训练模型。原创 2025-03-24 21:36:41 · 732 阅读 · 0 评论 -
nlp实践项目2——在线产品推荐
一个简单的解决方案是取用户迄今为止购买的所有产品的向量的平均值,然后使用这个结果向量来查找类似产品。我们的模型有 3,151 个独特单词的词汇表,每个单词的向量大小为 100。接下来,我们将提取词汇表中所有单词的向量并将其存储在一个地方以方便访问。将你创建的嵌入可视化总是很有帮助的。事实证明,我们的系统根据用户的整个购买历史推荐了 6 款产品。我们被要求创建一个系统,根据消费者过去的购买行为,自动向电子商务网站上的消费者推荐一定数量的产品。回想一下,我们已经创建了一个单独的购买序列列表,用于验证目的。原创 2024-10-28 10:25:10 · 746 阅读 · 0 评论 -
词向量——预训练词嵌入
预训练词嵌入是在一个任务中学习到的嵌入,可用于解决另一个类似的任务。这些嵌入在大型数据集上进行训练、保存,然后用于解决其他任务。这就是为什么预训练的词嵌入是迁移学习,顾名思义,就是将一项任务的学习转移到另一项任务。学习可以是权重或嵌入。在我们的例子中,学习就是嵌入。因此,这个概念被称为预训练词嵌入,在权重的情况下,这个概念被称为预训练模型。但是,为什么我们首先需要预训练的词向量呢?为什么我们不能从头开始学习词向量呢?案例研究:从头开始学习词嵌入与预训练词嵌入。原创 2024-10-27 21:28:02 · 498 阅读 · 0 评论 -
NLP实践项目1——判断推文的负面情绪
使用TF-IDF向量化推文内容。导入预测数据集并保存预测结果。以朴素贝叶斯模型为例。原创 2024-10-27 15:46:53 · 566 阅读 · 0 评论 -
NLP库——Spacy库教程
spaCy 的统计模型这些模型是 spaCy 的强大引擎。这些模型使 spaCy 能够执行多项 NLP 相关任务,例如词性标注、命名实体识别和依存关系解析。下面我列出了 spaCy 中的不同统计模型及其规格:en_core_web_sm:一个小型的英语多任务卷积神经网络(CNN),基于OntoNotes数据集训练。适用于基本的自然语言处理任务,模型体积较小,约为11 MB,适合轻量化应用。原创 2024-10-26 15:02:15 · 1151 阅读 · 0 评论 -
文本预处理——构建词云
这些单个单词反映了网页的上下文,并聚集在词云中。由于我们使用 .imshow() 创建图像,因此图像的重采样是由于图像像素大小和屏幕分辨率不匹配而完成的。在我们的示例中,我们将列。参数控制,以根据我们的需要生成更柔和或更清晰的图像。根据步骤 3 中的参数,将文本数据添加到您选择的变量中。虽然创建 Python 词云的方法有很多种,但最广泛使用的类型是使用 语料库中的。词云需要适量的文字,文字过多会阻碍词云的视觉效果,文字过少又没有意义。需要检查我们的数据集中的空值,因为在创建词云时,它不会接受带有。原创 2024-10-25 22:18:31 · 976 阅读 · 0 评论 -
文本预处理——词干提取与词性还原
不幸的是,spaCy 没有用于词干提取的模块。另一方面,词形还原是一个有组织的、循序渐进的获取单词根形式的过程。我们可以说,词干提取是一种快速而粗略的方法,将单词截断为词根形式,而词形还原是一种智能操作,它使用由深入的语言知识创建的词典。正如我们在上面的 NLTK 部分中看到的那样,TextBlob 也使用 POS 标记来执行词形还原。词干提取和词形还原只是词语的规范化,即将单词简化为其词根形式。是一种更强大的操作,因为它考虑到了单词的形态分析。词形还原返回词根,它是所有词形变形形式的词根。原创 2024-10-25 22:04:55 · 977 阅读 · 0 评论 -
文本预处理——删除停用词
在预处理时,gensim 还提供了删除停用词的方法。对于文本分类等需要将文本分类为不同类别的任务,停用词会被从给定的文本中删除或排除,以便将更多注意力放在那些定义文本含义的单词上。然后,在机器翻译和文本摘要等任务中,删除停用词是不可取的。现在,要使用 NLTK 删除停用词,可以使用以下代码块。一般来说,文本中最常用的词是“the”,“is”,“in”,“for”,“where”,“when”,“to”,“at”等。需要注意的一点是,停用词删除不会删除标点符号或换行符。删除停用词的不同方法。原创 2024-10-25 21:50:57 · 938 阅读 · 0 评论 -
文本预处理——标记化
标记化是处理文本数据时最常见的任务之一。但“标记化”一词实际上是什么意思呢?中的标记化本质上是将短语、句子、段落或整个文本文档拆分为更小的单元,例如单个单词或术语。每个较小的单元都称为标记。python中存在三种简单标记类型1.词语标记:将句子拆分成单个单词2.句子标记:将段落分成单独的句子3.正则表达式标记:使用正则化模式拆分文本接下来我将列举六种标记化方法1使用python的split函数进行标记让我们从方法开始,因为它是最基本的。它按指定的分隔符拆分给定的字符串后返回字符串列表。原创 2024-10-25 20:54:09 · 797 阅读 · 0 评论 -
文本预处理操作简述
我们执行文本预处理来准备用于模型构建的文本数据。这是 NLP 项目的第一步。除了数值数据外,文本数据也广泛可用,用于分析和解决业务问题。然而,在使用数据进行。或预测之前,处理数据非常重要。自然语言处理 (NLP) 是。进行文本预处理的原因。的一个分支,主要处理。原创 2024-10-25 20:07:50 · 160 阅读 · 0 评论 -
nlp快速入门--01--python字符串操作
3.find()--查找第一个符合的第一位下标,如果没有找到,则返回-1。4.split() join() 分割合并操作。1.strip()---去掉前后缀的字符。2.replace()--替换字符。原创 2024-09-10 09:02:13 · 199 阅读 · 0 评论