- 博客(40)
- 收藏
- 关注
原创 BERT文本分类实战----美团外卖评论情绪分类
HuggingFace 提供了巨大的模型库,虽然其中的很多模型性能表现出色,但这些模型往往是在广义的数据集上训练的,缺乏针对特定数据集的优化,所以在获得一个合适的模型之后,往往还要针对具体任务的特定数据集进行二次训练,这就是所谓的迁移学习。迁移学习的训练难度低,要求的数据集数量少,对计算资源的要求也低。HuggingFace 提供了训练工具,统一了模型的再训练过程,使调用者无须了解具体模型的计算过程,只需针对具体的任务准备好数据集,便可以再训练模型。
2025-03-24 21:36:41
677
原创 nlp实践项目2——在线产品推荐
一个简单的解决方案是取用户迄今为止购买的所有产品的向量的平均值,然后使用这个结果向量来查找类似产品。我们的模型有 3,151 个独特单词的词汇表,每个单词的向量大小为 100。接下来,我们将提取词汇表中所有单词的向量并将其存储在一个地方以方便访问。将你创建的嵌入可视化总是很有帮助的。事实证明,我们的系统根据用户的整个购买历史推荐了 6 款产品。我们被要求创建一个系统,根据消费者过去的购买行为,自动向电子商务网站上的消费者推荐一定数量的产品。回想一下,我们已经创建了一个单独的购买序列列表,用于验证目的。
2024-10-28 10:25:10
705
原创 词向量——预训练词嵌入
预训练词嵌入是在一个任务中学习到的嵌入,可用于解决另一个类似的任务。这些嵌入在大型数据集上进行训练、保存,然后用于解决其他任务。这就是为什么预训练的词嵌入是迁移学习,顾名思义,就是将一项任务的学习转移到另一项任务。学习可以是权重或嵌入。在我们的例子中,学习就是嵌入。因此,这个概念被称为预训练词嵌入,在权重的情况下,这个概念被称为预训练模型。但是,为什么我们首先需要预训练的词向量呢?为什么我们不能从头开始学习词向量呢?案例研究:从头开始学习词嵌入与预训练词嵌入。
2024-10-27 21:28:02
454
原创 NLP库——Spacy库教程
spaCy 的统计模型这些模型是 spaCy 的强大引擎。这些模型使 spaCy 能够执行多项 NLP 相关任务,例如词性标注、命名实体识别和依存关系解析。下面我列出了 spaCy 中的不同统计模型及其规格:en_core_web_sm:一个小型的英语多任务卷积神经网络(CNN),基于OntoNotes数据集训练。适用于基本的自然语言处理任务,模型体积较小,约为11 MB,适合轻量化应用。
2024-10-26 15:02:15
1075
原创 文本预处理——构建词云
这些单个单词反映了网页的上下文,并聚集在词云中。由于我们使用 .imshow() 创建图像,因此图像的重采样是由于图像像素大小和屏幕分辨率不匹配而完成的。在我们的示例中,我们将列。参数控制,以根据我们的需要生成更柔和或更清晰的图像。根据步骤 3 中的参数,将文本数据添加到您选择的变量中。虽然创建 Python 词云的方法有很多种,但最广泛使用的类型是使用 语料库中的。词云需要适量的文字,文字过多会阻碍词云的视觉效果,文字过少又没有意义。需要检查我们的数据集中的空值,因为在创建词云时,它不会接受带有。
2024-10-25 22:18:31
928
原创 文本预处理——词干提取与词性还原
不幸的是,spaCy 没有用于词干提取的模块。另一方面,词形还原是一个有组织的、循序渐进的获取单词根形式的过程。我们可以说,词干提取是一种快速而粗略的方法,将单词截断为词根形式,而词形还原是一种智能操作,它使用由深入的语言知识创建的词典。正如我们在上面的 NLTK 部分中看到的那样,TextBlob 也使用 POS 标记来执行词形还原。词干提取和词形还原只是词语的规范化,即将单词简化为其词根形式。是一种更强大的操作,因为它考虑到了单词的形态分析。词形还原返回词根,它是所有词形变形形式的词根。
2024-10-25 22:04:55
913
原创 文本预处理——删除停用词
在预处理时,gensim 还提供了删除停用词的方法。对于文本分类等需要将文本分类为不同类别的任务,停用词会被从给定的文本中删除或排除,以便将更多注意力放在那些定义文本含义的单词上。然后,在机器翻译和文本摘要等任务中,删除停用词是不可取的。现在,要使用 NLTK 删除停用词,可以使用以下代码块。一般来说,文本中最常用的词是“the”,“is”,“in”,“for”,“where”,“when”,“to”,“at”等。需要注意的一点是,停用词删除不会删除标点符号或换行符。删除停用词的不同方法。
2024-10-25 21:50:57
876
原创 文本预处理——标记化
标记化是处理文本数据时最常见的任务之一。但“标记化”一词实际上是什么意思呢?中的标记化本质上是将短语、句子、段落或整个文本文档拆分为更小的单元,例如单个单词或术语。每个较小的单元都称为标记。python中存在三种简单标记类型1.词语标记:将句子拆分成单个单词2.句子标记:将段落分成单独的句子3.正则表达式标记:使用正则化模式拆分文本接下来我将列举六种标记化方法1使用python的split函数进行标记让我们从方法开始,因为它是最基本的。它按指定的分隔符拆分给定的字符串后返回字符串列表。
2024-10-25 20:54:09
748
原创 文本预处理操作简述
我们执行文本预处理来准备用于模型构建的文本数据。这是 NLP 项目的第一步。除了数值数据外,文本数据也广泛可用,用于分析和解决业务问题。然而,在使用数据进行。或预测之前,处理数据非常重要。自然语言处理 (NLP) 是。进行文本预处理的原因。的一个分支,主要处理。
2024-10-25 20:07:50
146
原创 刷题巩固-----DAY22(括号配对)
分析题目,要添加最少的括号是原括号都匹配,因为是求最小值,所以转移是最小的状态,再加上数据范围不超过1e3,我们则使用所以元素初始化为无穷大的二维数组进行状态转移,再套用区间dp的模板。本道题是回文加区间dp,本题可能不是非常纯粹的回文,但是也可以领会一些思路。1070. 括号配对 - AcWing题库。
2024-09-12 21:59:50
196
原创 刷题巩固-----DAY21(环形石子合并)
这道题是一道区间dp的模板题,包含了求最大与最小两个考点,分析题干可知,本题是一个环形数据,我们需要对其操作的话,需要将其数组进行延伸变成n*2,后面则套用模板即可,通常区间dp喜欢与回文一起考,明天更新类似例题。本课程系统讲解常用算法与数据结构的应用方式与技巧。活动 - AcWing。
2024-09-11 11:24:09
532
原创 刷题巩固-----DAY20(玉米田)
这道题与昨天小国王题目有些差异,小国王是八个方向上不能有第二个国王,本题只有四个方向,但本题通过输入状态,给出了每行特定的非法位置,最后再套用模板即可。今天是状压dp的第二讲,玉米田。通过这两道题基本熟悉了状压dp的基本思路。状压dp基本就是这三步,再根据题意更改一些细节即可。327. 玉米田 - AcWing题库。第三步//枚举每行合法状态,再进行转移。第一步//预处理行内合法状态。第二步//预处理行间合法状态。
2024-09-10 11:07:25
273
原创 nlp快速入门--01--python字符串操作
3.find()--查找第一个符合的第一位下标,如果没有找到,则返回-1。4.split() join() 分割合并操作。1.strip()---去掉前后缀的字符。2.replace()--替换字符。
2024-09-10 09:02:13
184
原创 opencv快速入门--02--图像色彩空间转换
图像保存-imwrite("path",image)COLOR_BGR2HSV=40 BGR到HSV。COLOR_HSV2BGR=54 HSV到BGR。COLOR_BGR2GRAY=6 彩色到灰度。COLOR_GRAY2BGR=8 灰度到彩色。色彩空间转换函数-cvtColor。
2024-09-09 16:33:52
178
原创 刷题巩固-----DAY19(小国王)
状态机还剩两道题,但是难度比较大,涉及到ac自动机模型,我做这个专栏是为了查漏补缺,难度大的题将放到第二轮刷题进阶计划中。今天开始状压dp的更新,大概会刷三道题,因为一开始学的时候,学的不是很明白,现在多刷两道题补一下。这道题首先枚举在一行当中所有合法的状态,再计算任意一行的合法状态,对应多少个合法状态,状压dp有一个基础知识,就是位运算操作,我们先复习一下位运算。最后再枚举行数,国王数,和合法状态的三重循环计算方案数。本课程系统讲解常用算法与数据结构的应用方式与技巧。活动 - AcWing。
2024-09-09 10:18:54
499
原创 刷题巩固-----DAY18(股票买卖Ⅴ)
今天是状态机的第三讲,股票买卖Ⅴ,对题目进行分析,本题相较于昨天的股票买卖Ⅳ,没有了交易次数的限制,而是一个冷静期的状态,所以这道题,我们则使用f[ i ][ 3 ]这个容器来进行交易利润的状态转移,0是手上没有且没进冷静期,1是手上有票,2是手上没票进入冷静期,状态转移为。我这一段时间,刷的题都来源于y总的算法提高课,等把提高课过完一遍后,会继续更新力扣的每日一题。本课程系统讲解常用算法与数据结构的应用方式与技巧。活动 - AcWing。
2024-09-08 12:15:41
194
原创 刷题巩固-----DAY17(股票买卖Ⅳ)
对于此题,我们则使用f[N][M][2]容器进行状态转移,将f[ i ][ j ][0/1]视为,从第1个物品到第i个物品,交易了j次,手上有没有股票(有票=1,无票=0),如果手上有票,可以从f[ i-1][ j ][1]:前一项有票同一交易次数转移过来或者从f[ i-1][ j ][0] - w[ i ]:前一项无票同一交易次数减去当前股票的价格转移过来(买入操作不改变交易次数,卖出改变交易次数),取二者最大,反之同理。今天是个状态机的第二讲,有了昨天和今天两道题的铺垫,能够对状态机有初步的认识。
2024-09-07 16:56:07
162
原创 刷题巩固-----DAY16(大盗阿福)
对题目进行分析,如果没有对相邻的判断,则为最经典的线性dp问题,该题目需要判断相邻,一维数组无法将所有状态全部存储,所以我们需要设计一个二维容器:f[N][2],分别存储两个状态(1=偷,0=不偷),第 i 项偷的话,状态转移就是从第 i-1 项不偷的状态加上第 i 家商店的金额,如果第 i 项不偷的话,状态转移就是从第 i-1 项不偷与偷之间取最大值,最后输出结果也需要对第 n 项两个状态取最大值。今天开始进行状态机题单刷题,因为之前没有学过状态机,所以,要把状态机的题多刷一下。活动 - AcWing。
2024-09-06 11:05:51
319
原创 刷题巩固-----DAY15(背包问题求具体方案)
今天是背包问题的最后一讲(完结撒花),背包问题求具体方案数。题目大概意思为01背包求放入物品的编号字典序最小的方案。本题的数据范围是1000,可以选择二维数组,或者一维数组优化算法,倒序遍历,滚动数组,但是对本题来说,需要在遍历一个方向计算最大值,再遍历另一个方向计算字典序,所以本题需要使用二维数组进行状态转移。
2024-09-05 14:02:33
184
原创 刷题巩固-----DAY14(背包问题求方案数)
今天是背包九讲的第八讲,背包问题求方案数,这道题其实跟day8货币系统类似,用01背包计算最值,用g数组记录路径,具体可以看“一只野生彩色铅笔”大佬的讲解。11. 背包问题求方案数 - AcWing题库。
2024-09-04 10:27:03
196
原创 刷题巩固-----DAY13(有依赖的背包问题)
今天是背包九讲的第七讲,有依赖的背包问题。这是一道有难度的题,其实考察的是树形dp,建议去看y总的讲解(我不太懂),这里也附上y总的ac代码。
2024-09-03 14:54:58
234
原创 刷题巩固-----DAY12(机器分配)
今天是背包九讲中的第六讲,分组背包问题,也是01背包的一种变形,每一组背包都是01背包,最后求最大值。本课程系统讲解常用算法与数据结构的应用方式与技巧。活动 - AcWing。
2024-09-02 16:26:52
506
原创 刷题巩固-----DAY11(二维费用的背包问题)
今天是背包九讲的第五讲,二维费用的背包问题。与差分,前缀和算法相似,01背包问题也有二维问题,与一维的优化方式一样,都是降低维度。在一维背包问题中,是将二维数组降低为一维,然后滚动数组,倒序遍历,而在二维背包问题中,是将三维数组降低为二维,然后滚动数组,倒序遍历。
2024-09-01 09:19:08
195
原创 刷题巩固-----DAY10(混合背包问题)
这道题的关键点在于01背包看成最多只能用1次的多重背包,然后再分别套用完全背包和多重背包的模板即可。今天是背包九讲的第四讲,混合背包问题。混合背包问题相当于前三讲的综合。
2024-08-31 16:08:55
160
原创 py备赛-----技巧篇_1
之所以开这个专栏,是因为c++的蓝桥国奖已经拿过了,但以接下来的时间和精力来看,继续在c++的赛道冲击更高的名次,不太现实,又因为以后准备走人工智能方向,所以还是想用py做自己主要使用的语言,正好用y总的pat课用来熟悉py。当我用c的算法思路去用python语言刷题时,会在题解发现许多“四两拨千斤”的python技巧,故此,分享出来,也利于我之后翻看复习。很经典的一道入门题,其难点在于考虑输出的格式,接下来,我将分别给出python与c++的代码,效果一目了然。
2024-08-30 18:27:23
127
原创 刷题巩固-----DAY9(庆功会)
今天是背包九讲的第三讲,多重背包问题。废话不多说,直接上闫氏dp法。本课程系统讲解常用算法与数据结构的应用方式与技巧。活动 - AcWing。
2024-08-28 22:08:25
306
原创 刷题巩固-----DAY8(货币系统)
今天是背包九讲的第二讲,完全背包问题,对题目进行分析,有n种面值的货币,要求凑齐正好m的面值,每种货币都能无限使用,所以我们只需要讲运算数组f[0]设为1,再进行滚动遍历即可。本课程系统讲解常用算法与数据结构的应用方式与技巧。活动 - AcWing。
2024-08-27 09:17:01
282
原创 刷题巩固-----DAY7(采药)
今天是背包九讲的第一讲,01背包问题,也是非常基础的问题,核心思想就是。423. 采药 - AcWing题库。最后在进行优化,滚动数组,倒序遍历。
2024-08-26 08:50:57
247
原创 刷题巩固-----DAY6(最长上升子序列和)
这道题的题目虽然有最长上升子序列,但是却不是用最长上升子序列的办法来做的,因为要求从一个上升子序列的和最大,感觉更像01背包的做法。本课程系统讲解常用算法与数据结构的应用方式与技巧。这道题是最后一道刷的lis题,下周开始刷背包九讲。活动 - AcWing。
2024-08-25 10:22:01
230
原创 刷题巩固-----DAY5(导弹防御系统)
对题干进行刨析,就是输入多组数据,求每组数据可拆分成严格单调上升子序列与严格单调下降子序列之和最小,如果直接沿用最长上升子序列模板的话,是不合适的,我们需要对模板进行优化,up[k]储存第k组上升子序列的末尾元素,down[k]储存第k组下降子序列的末尾元素。在整个过程中,我们先枚举每个数,先枚举将该数放到up[]中,还是down[]中,如果放到up[]中,则枚举该数到底要放到哪组上升序列后面,反之,枚举该数放到哪组下降序列后面。但是再拓展节点时存在贪心策略,降低了时间。再此附上一瞬流年丶涅槃的代码。
2024-08-24 10:21:16
215
原创 刷题巩固-----DAY4(登山)
对题目进行分析,是对线性dp中的最长上升子序列的一个变形,队员们希望先上山再下山,求最多的浏览景点,与day3(怪盗基德的滑翔翼)类似,都需要从正反两个方向进行操作,将每个位置正反两个方向的最多浏览景点数相加再减一,就是已该点作为上山的最后一个点的全程浏览景点数。
2024-08-23 10:41:42
218
原创 刷题巩固-----DAY3(怪盗基德的滑翔翼)
分析题目可知,这是一个最大上升子序列的模板题,要注意的是,需要正反两个方向都计算一次最大上升子序列取其最大值,因为基德可以向前或者向后一直飞。链接:https://www.acwing.com/activity/content/code/content/112799/商业转载请联系作者获得授权,非商业转载请注明出处。(代码没有保存上,只能上y总的代码了)
2024-08-22 08:23:07
229
原创 刷题巩固-----DAY2(最低通行费)
题目与摘花生(DAY1)类似,本题虽然没有对行走方向进行限制,但是通过行进时间判断只能走2*N-1个单元格,其实还是每次只能向东或者向西走一格,解题思路与摘花生大概一样,都是线性dp,但是这个题要求的是最小值,所以需要先对f[][]赋极大值,对数据进行分析,表格为正方形,边长最大为100,每个点的值最大也为100,所以极大值为100*100*100,当然直接赋值0x3f也可以;本课程系统讲解常用算法与数据结构的应用方式与技巧。活动 - AcWing。
2024-08-21 08:49:21
274
原创 刷题巩固-----DAY1(摘花生)
链接:https ://www.acwing.com/activity/content/code/content/112796/题目大致就是线性dp变形,与数字三角形考点相同,但是需要将矩阵看为两个三角形。商业转载请联系作者获得授权,非商业转载请注明出处。整体代码为(转自y总)
2024-08-20 08:32:15
149
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人