- 博客(81)
- 收藏
- 关注
原创 带你从入门到精通——知识图谱(六. 知识融合)
基于规则和词典的指代消解方法可以通过指代词词典找出可能的存在共指关系的词,并通过最近匹配原则找到与指代词距离最近的实体,最后将两者进行统一归类。,例如苹果和apple都是指同一个实体,实体对齐和关系对齐需要将对于同一个实体或关系的不同表示方法进行统一,使这些表示都指向同一个实体或关系。并将其统一归类到同一个实体,其中共指关系是指在文本中,多个表达都指向同一个实体,例如小明和他都是指小明这个人。,例如苹果可以指水果,也可以指公司,对于这种多义词需要通过实体消歧使其指向一个唯一确定的实体。
2025-04-16 19:52:06
889
原创 带你从入门到精通——知识图谱(五. Joint联合抽取)
Joint联合抽取方法是指通过修改标注体系和模型结构的方法直接输出文本数据中所包含的SPO三元组,与传统的pipline方法相比,joint联合抽取的方法不用训练多个模型,使用一个模型即可完成实体抽取和关系抽取,并且能够减少实体抽取与关系抽取之间的误差传播。Joint联合抽取方法可以分为联合解码的联合模型以及参数共享的联合模型。
2025-04-16 19:47:23
1364
原创 带你从入门到精通——知识图谱(四. 关系抽取)
关系抽取是指从给定的、包含两个及以上实体的文本中,预测实体之间的关系并抽取出关系三元组〈S,P,O〉,其中S表示subject,即主语、主实体、头实体P表示predicate,即谓语、关系O表示object,即宾语、客实体、尾实体,因此,关系抽取也属于文本分类任务。关系抽取需要完成两大任务:首先是识别出文本中的实体对,其次是预测实体对直接的关系并抽取出关系三元组,正常来说关系三元组是没有重叠的,但是在某些情况下可能会出现问题或者EPO(Entity Pair Overlap)问题。
2025-04-04 01:08:49
1435
原创 带你从入门到精通——机器学习(十. 支持向量机)
支持向量机(Support Vector Machine, SVM)常用于处理二分类问题,核心思想是寻找一个最优的决策超平面为超平面的法向量,b为偏置项,通过该超平面能够将两类类别的样本数据分隔开,决策超平面及以上的样本数据被分为正类,决策超平面及以下的样本数据被分为负类,而最优的决策超平面能够最大化两类样本数据之间的分类间隔(即决策超平面与最近的样本数据的距离),离决策超平面最近的样本数据也被称为支持向量,支持向量所在的、与决策超平面平行的超平面也被称为正超平面)和负超平面。
2025-04-04 01:07:00
1056
原创 带你从入门到精通——知识图谱(三. BiLSTM-CRF模型)
2. 遍历T和K,更新二维dp数组中的内容,设当前遍历到的节点为N,即选取N所有前驱节点中有着最大路径分数的前驱节点,并在该前驱节点记录的路径分数的基础上加上N对应的发射分数和转移分数作为新的路径分数,在N中记录新的路径分数以及该前驱节点。2. 遍历T和K,更新二维dp数组中的内容,设当前遍历到的节点为N,这里的更新步骤可以分为两步,第一步是在N的所有前驱节点所记录的对数分数中加上N的发射分数和转移分数,设N的发射分数和转移分数的和为x,这里需要将x转换为。
2025-03-31 23:29:23
3118
原创 带你从入门到精通——知识图谱(二. 实体抽取)
基于传统机器学习的方法通常是将实体抽取任务转化为序列标注任务,需要经过特征选择(需要人工进行特征选择)、模型选型、模型训练、模型预测四个步骤。隐马尔科夫模型(Hidden Markov Model, HMM)以及条件随机场(Conditional Random Field,CRF)。与基于规则和词典的方法相比基于传统机器学习的方法的可移植性更强,但仍然需要人工进行特征工程,成本较高。
2025-03-31 23:28:50
1767
原创 带你从入门到精通——知识图谱(一. 知识图谱入门)
知识图谱(Knowledge Graph)是一种基于图数据结构的关系网络或数据库,在知识图谱中,节点可以表示概念(抽象出来的事物,也称本体)、实体(具体的事物)、属性值,边可以表示事物的关系(事物的内外部联系)或属性(事物的内部特征),由于图可以分为有向图和无向图,因此知识图谱也可以是有向或无向的。与传统的关系型数据库,如MySQL相比,知识图谱能够通过节点和边的关系更便捷地处理复杂的多跳关系、并且在数据层添加新的节点和边不会影响已有的数据,有着更强的可扩展性,此外知识图谱还支持语义推理。
2025-03-29 21:45:22
3506
原创 带你从入门到精通——自然语言处理(十三. 模型压缩)
模型量化是指将深度学习模型中使用高精度浮点数(例如FP32、FP16)来表示的权重和激活值(模型中持续更新的输入通常被称为激活值)转换为低精度的整数(INT8、INT4)的过程,能够起到压缩模型、加速推理的作用。目前主流的量化技术为训练后量化(Post-Training Quantization,PTQ),PTQ在模型完成训练后直接对权重和激活值进行低精度转换,无需重新训练或微调。
2025-03-25 10:01:02
1043
原创 带你从入门到精通——自然语言处理(十二. TextCNN和ELMo)
是由Allen Institute for AI(AI2)于2018年提出的一种基于双层双向LSTM的动态词向量表示模型,能够生成上下文相关的动态词向量,传统的静态词向量(如Word2Vec)都是上下文无关的,但是同样的词在不同的语境中可能会有不同的含义,而静态词向量无法对这种多义词进行建模,而ELMo通过训练一个语言模型来根据上下文动态地生成一个词的词向量,完成对多义词的建模。
2025-03-23 19:57:08
1082
原创 带你从入门到精通——自然语言处理(十一. GPT)
是Open AI于2018年提出的一种基于transformer的预训练模型GPT的总体架构如下图所示:从上述的架构图中可以看到,GPT分三个主要模块:最底层的embedding模块、中间层的transformer模块以及最上层绿色的输出模块。
2025-03-22 19:47:22
927
原创 带你从入门到精通——自然语言处理(十. BERT)
是Google于2018年提出的一种基于transformer的预训练模型BERT的总体架构如下图所示:从上述的架构图中可以看到,BERT分三个主要模块:最底层黄色标记的embedding模块、中间层蓝色标记的transformer模块以及最上层绿色标记的微调模块。
2025-03-22 18:44:56
1063
原创 带你从入门到精通——自然语言处理(九. 迁移学习和transformers库)
迁移学习是机器学习中的一种方法,旨在将在一个任务(源任务,即有充足数据且已经训练好模型的任务)中学到的模型参数、特征表示或其他知识迁移另一个相关的任务(目标任务,即待解决的任务)中,在目标任务数据不足或标注数据困难的情况下,迁移学习可以显著加快模型在目标任务上的训练,提高模型的性能。
2025-03-18 21:33:41
1234
原创 带你从入门到精通——自然语言处理(八. FastText)
文本分类任务可以分为以下三类:二分类任务:文本被分类两个类别中,往往这两个类别是对立面。单标签多分类任务:文本被分入到多个类别中,并且每条文本只能属于多个类别中的某一个类别。多标签多分类任务:文本被分人到多个类别中,但每条文本可以属于多个类别中的任意各类别。
2025-03-18 18:12:13
943
原创 带你从入门到精通——自然语言处理(七. Transformer的解码器部分、输出部分和整体搭建)
建议先阅读我之前的博客,掌握一定的自然语言处理前置知识后再阅读本文,链接如下:带你从入门到精通——自然语言处理(一. 文本的基本预处理方法和张量表示)-优快云博客带你从入门到精通——自然语言处理(二. 文本数据分析、特征处理和数据增强)-优快云博客带你从入门到精通——自然语言处理(三. RNN扩展和LSTM)-优快云博客带你从入门到精通——自然语言处理(四. GRU和seq2seq模型)-优快云博客带你从入门到精通——自然语言处理(五. 自注意力机制和transformer的输入部分)-优快云博客
2025-03-08 23:20:03
914
原创 带你从入门到精通——自然语言处理(六. Transformer的编码器部分)
Transformer中的编码器部分的整体框架图如下:Transformer中的编码器部分由N个编码器层堆叠而成(原论文中使用了6个编码器层),每个编码器层由两个子层连接结构组成,第一个子层连接结构包括一个多头注意力机制子层、一个残差连接以及层归一化层,而第二个子层连接结构则包括一个前馈全连接子层、一个残差连接以及以及层归一化层。
2025-03-08 23:18:52
1081
1
原创 带你从入门到精通——自然语言处理(五. 自注意力机制和transformer的输入部分)
RNN模型是依次输入各个token并进行编码,因此RNN模型能够直接感知输入序列中各个token之间的位置关系,而在transformer模型中,对于输入序列是并行进行编码的,因此它无法直接感知输入序列中各个token的位置关系,所以transformer中引入了位置编码器(Positional Encoding),位置编码器能够为embedding后的词向量引入该词在输入序列中位置信息。的作用是将输入文本中的每个token转换为一个固定长度的低维稠密词向量,便于模型更好地捕捉到词汇的语义信息和语法信息。
2025-03-05 22:21:49
1305
2
原创 带你从入门到精通——自然语言处理(四. GRU和seq2seq模型)
门控循环单元(GRU,Gated Recurrent Unit)与LSTM一样是一种改进版的RNN,GRU也通过引入门控机制来更好地捕捉长序列数据中的长期依赖关系。GRU的内部结构图如下:在GRU中门控机制中一共有两个门,下式中的σ表示sigmoid激活函数:重置门:该门决定了在计算候选隐藏状态时,上一个时间步的隐藏状态中哪些信息应该被重置(遗忘),它接收当前时间步的输入和上一个时间步的隐藏状态,然后输出一个0到1之间的数值,计算方法如下:更新门。
2025-03-05 17:37:16
1095
1
原创 带你从入门到精通——自然语言处理(三. RNN的分类和LSTM)
即长短期记忆网络,是一种改进的RNN,能够缓解传统RNN中存在的梯度消失问题、梯度爆炸问题以及长程依赖问题,LSTM引入了门控机制和细胞状态,使其能够更好地捕捉长序列数据中的长期依赖关系。
2025-02-19 22:33:58
808
1
原创 带你从入门到精通——自然语言处理(二. 文本数据分析、特征处理和数据增强)
是指从非结构化的文本数据中提取有价值的信息、模式和见解的过程,文本数据分析能够帮助我们更好地理解文本数据的结构和含义,并指导后续模型训练过程中的超参数选择。是效果较好的一种,该方法是指先将文本数据翻译成另一种语言(一般选择小语种),之后再翻译回原语言,从而得到新的语料,是指对齐数据集中所有样本的句子长度,(即1-gram)、(即2-gram)和。
2025-02-16 22:05:55
1471
1
原创 带你从入门到精通——自然语言处理(一. 文本的基本预处理方法和张量表示)
词嵌入(word embedding)指一种将词汇映射到低维稠密向量空间的方法,经过词嵌入后得到的词向量能够在不同的下游NLP任务之间共享(即进行迁移学习),但是无法很好地表示一些低频词和未知词。word2vec是一种常见的无监督词嵌入方法,它利用自身的文本信息来构建伪标签,并使用全连接神经网络进行训练,其中隐藏层的权重参数矩阵将作为最终的词向量矩阵,这些低维稠密的向量能够有效地捕捉词与词之间的语义关系(语义相近的词的词向量有着更高的相似度),但需要大量的语料来进行训练。
2025-02-15 23:07:13
1104
1
原创 带你从入门到精通——Python(十四. 多任务编程)
在一段时间内,CPU交替执行任务,操作系统通过时间片轮转的方式,为每个任务分配一小段CPU时间片,在当前任务被分配的时间片用完后,操作系统会暂停当前任务,切换到下一个任务继续执行,并发本质上还是单任务,但由于CPU的执行和切换速度实在是太快了,表面上我们感觉就像各个任务都在同时执行一样。由于GIL的存在,单进程多线程无法充分利用多核CPU的优势,只能轮流使用CPU的一个核心,而且如果某个线程出现异常且没有被正确捕获,可能会导致整个进程崩溃,影响其他线程的正常运行,稳定性较差。
2025-02-07 22:26:41
1198
原创 带你从入门到精通——Python(十三. 网络编程)
第二次挥手:服务端收到客户端发送的FIN报文后,会结束ESTABLISHED阶段,进入CLOSE-WAIT阶段即半关闭状态,此时仍然可以向客户端发送数据,并向客户端发送ACK报文,该报文中包含:标志位ACK=1表示确认收到客户端发送的FIN报文;第三次握手:客户端收到服务端发送的SYN+ACK报文后,会结束SYN-SENT阶段并向服务端发送一个ACK报文,随后客户端进入ESTABLISHED(连接)阶段,ACK报文中包含:标志位ACK=1表示确认收到服务端发送的SYN+ACK报文;
2025-02-06 17:49:32
960
原创 带你从入门到精通——深度学习(十一. git)
一个远程的中央服务器,其中的版本数据库存储了文件的所有版本和修改信息,开发者可以从中央服务器的版本数据库获取文件的最新版本并进行进一步的开发,然后将修改后的文件提交给中央服务器进行保存,CVCS。也有一个远程服务器,其中的版本数据库也存储了文件的所有版本和修改信息,而开发者可以完整地备份服务器的版本数据库到本地,以获取文件的所有版本和修改信息。git的分支功能允许你在本地版本库中创建多个不同的分支,每个分支代表着本地版本库的不同状态,方便开发者在多个分支之间进行切换和开发。
2025-02-04 22:49:51
1090
原创 数据结构与算法——二分查找
快速查找某个目标值是否存在于该数组中,如果存在还能够返回目标值在数组中的索引下标,常见的二分查找算法有开区间写法、半开区间写法以及闭区间写法,这三种写法的区别是左右指针所指的值是否在二分查找的范围之内,开区间的二分查找的范围是。,半开区间的二分查找的是。,而闭区间的二分查找的是。
2025-02-04 19:25:51
399
原创 带你从入门到精通——Python(十二. 迭代器、生成器和正则表达式)
生成器一种特殊的迭代器,它能够根据程序员制定的规则逐个产生元素,而不是一次性生成所有元素,进而能够节约大量的内存,其主要有以下两种创建方法:第一种是使用生成器推导式# 使用生成器推导式创建生成器# 生成器推导式中的括号()代表生成器,而不代表元组# 生成器推导式中的括号()里面写的是数据的生成规则,返回一个生成器对象# 该对象内不是存的数据,而是生成数据的规则# next函数获取生成器下一个值# 遍历生成器# 2 4 6 8注意:生成器也具有前向迭代的特点。第二种是使用yield关键字。
2025-02-03 23:19:27
1150
原创 带你从入门到精通——Python(十一. 闭包、装饰器和深浅拷贝)
使用了外部函数变量的内部函数称为闭包(Closure)return inner_func # inner_func没有执行,只是返回了inner_func的内存地址closure = outer_function(outer_var) # 创建闭包# 相当于把inner_func的内存地址赋值给变量closureclosure(inner_var) # 调用闭包# 找到inner_func的内存地址并调用inner_func。
2025-02-03 03:06:44
1191
原创 带你从入门到精通——Python(十. 面向对象二)
继承是指子类能够继承(复用)父类的共有属性和共有方法,并且可以添加新的属性和方法,或者重写(覆盖)父类的共有属性和共有方法以实现不同的功能。继承具有传递性,例如A类继承了B类,B类又继承了C类,则根据继承的传递性,则A类也会自动继承C类中的公共属性和公共方法,这种继承也被称为多层继承。父类:也叫作基类或超类,即被继承的类子类:也叫作派生类或扩展类,即继承父类的类。顶级类:通常值object类,Python中所有的类都默认继承object类。单继承:一个类只继承一个父类。passpass。
2025-02-02 21:05:10
938
原创 带你从入门到精通——Python数据处理(十一. Matplotlib)
Matplotlib是Python中的一个能够生成高质量图表的绘图库,也是一种常用的可视化工具,广泛应用于数据可视化、科学研究等领域,使用Matplotlib生成的可视化图表能够更加直观地呈现数据,使得数据更加客观、更具说服力。
2025-02-02 01:17:55
1256
原创 带你从入门到精通——Python数据处理(十. Pandas中的融合和向量化字符串函数)
Pandas中的str访问器方法有很多,基本上Python中所有的字符串系列函数都有对应的str访问器方法,这里介绍部分常用的str访问器方法。中的列的列名在新的DataFrame对象中将作为一个新的列的列值(通常传入一个列表),可以判断Series对象内的元素是否以某个前缀字符串开头,而Series对象的。可以将Series对象内元素中的字母全部转换为大写,而Series对象的。中的列在新的DataFrame对象中作为索引列(即保持不变的列)。表示由参数value_vars中的列的列名构成的新列的列名,
2025-02-01 22:33:56
1432
原创 带你从入门到精通——深度学习(十. 深度学习模型部署)
当我们训练好一个模型后,为了使它能够对外提供服务,我们通常会将其部署到某一台存在于互联网的服务器上,想要使用该模型服务的人可以以远程的方式通过网络来和部署在服务器上的模型进行交互来获得该模型的服务,此时,我们就需要在服务器端去编写一个用于和用户交流的应用程序,而使用Flask便可以解决此问题。Flask是一款使用Python语言编写的轻量级的Web应用程序框架,它具有轻便、灵活、安全且容易上手的优点,通过Flask我们可以将训练得到的模型封装成一个能够提供预测功能的Web应用程序,即一个服务器接口。
2025-01-27 22:58:29
1613
原创 带你从入门到精通——深度学习(九. 循环神经网络)
自然语言处理(Nature language Processing,NLP)主要研究的是通过计算机算法来理解自然语言,自然语言即是指人类日常交流中所使用的各种语言,例如:汉语、英语、法语等,自然语言是一种文本数据,该类型的数据不像结构化数据或者图像数据那样可以很方便的进行数值化,文本数据通常需要经过词嵌入层后,才可以送入神经网络进行训练。自然语言处理领域的主要任务有以下八个:文本分类:将文本数据分配到一个或多个预定义的类别中。文本生成:自动生成符合语法和语义规则的文本。文本摘要。
2025-01-26 21:24:03
1095
原创 带你从入门到精通——深度学习(八. 卷积神经网络)
卷积神经网络(Convolutional Neural Network,CNN)卷积层:负责提取图像中的局部特征。池化层:负责降维,减少参数量,提高运算速度。全连接层:复杂输出最终的结果。
2025-01-25 21:46:55
1285
原创 带你从入门到精通——深度学习(七. 深度学习项目构建流程)
在本次的项目示例中,我们需要找出手机的各种功能(例如:是否支持双卡双待、是否有蓝牙等)与其售价之间的某种关系,但我们不需要预测实际价格,只需要预测一个价格范围,不同的价格范围使用 0、1、2、3 来表示,因此该问题属于一个分类问题。
2025-01-25 15:05:47
1272
原创 带你从入门到精通——深度学习(六. 神经网络的优化方法和正则化方法)
其中,EMAt是时间t时的指数移动平均值,xt是时间t时的实际值,β被称为平滑因子,取值范围为0<β<1,EMAt−1是值前一时刻的指数移动平均值,初始条件通常为。(缩放+平移),γ和β都是可学习的参数,它相当于对标准化后的数据做了一个线性变换,γ为系数,β为偏置,eps是一个极小的数,以避免分母为0。,鞍点是指函数在此点一阶导数为零,但该点是某一方向上的函数极大值点,在另一方向上是函数极小值点,下图中坐标为(0,0)红点即为函数。而鞍点的梯度为0,参数无法优化;
2025-01-19 22:49:00
1178
原创 带你从入门到精通——深度学习(五. 神经网络的搭建、损失函数和反向传播)
该方法用于定义神经网络的前向传播逻辑,当你对一个继承了torch.nn.Module的实例对象进行调用时(例如model(input)的格式,model为一个继承了torch.nn.Module的实例对象),会自动调用该实例所属类的__call__方法,而__call__方法的内部则会调用forward方法。:指一次训练(一次参数更新)中,使用的样本数量,设置batch_size的目的是使用训练集中的小部分样本对模型的参数进行更新。其中yi是当前样本的真实标签(0或1),pi是当前样本属于正类的概率值。
2025-01-18 20:18:56
1385
原创 带你从入门到精通——机器学习(四. 逻辑回归)
其基本思想是选择使观测数据出现的概率最大的参数值。的利器,该模型把线性回归的输出,作为自己的输入,逻辑回归的最终输出是一个(0,1)之间的值。所有的负样本都预测正确,所有的正样本都预测错误,相当于点的FPR值为0,TPR值为0。所有的负样本都预测错误,所有的正样本都预测错误,相当于点的FPR值为1,TPR值为0,所有的负样本都预测错误,表示所有的正样本都预测正确,相当于点的FPR值为1,TPR值为1。所有的负样本都预测正确,表示所有的正样本都预测正确,相当于点的FPR值为0,TPR值为1,
2025-01-17 23:28:24
1274
1
原创 带你从入门到精通——深度学习(四. 神经网络的概念、激活函数和参数初始化)
当x<0时,ReLU函数的导数为0,而当x>0时,ReLU函数的导数恒为1,因此ReLU能够在x>0时保持梯度不衰减,从而缓解梯度消失问题,然而,随着训练的推进,部分输入会落入小于0区域,导致其对应权重无法更新,这种现象被称为。2.第N层的每个神经元与第N-1层的所有神经元相连(这也是全连接的含义),每一个连接都有一个自己的权重值(包含w系数和b系数),对于sigmoid函数来说,当输入值<-6或者>6时,任何的输入值得到的激活值都是差不多的,这样会丢失部分的信息,因此该函数的。
2025-01-17 19:42:54
1687
原创 带你从入门到精通——Python数据处理(九. Pandas中的分组聚合和透视)
需要传入传入原始数据的列名列表(如果传入多个列名,则会将多个列一起作为复合列索引),该列表中各列的每个取值会作为透视表结果的一个列索引;,它能够对大量数据进行汇总、分类和分析,其主要目的是帮助用户从复杂的数据集中提取有意义的信息,并以易于理解和解释的方式展示这些信息。需要传入原始数据的列名列表(如果传入多个列名,则会将多个列一起作为复合行索引),该列表中各列的每个取值会作为透视表结果的一个行索引;分组后的数据不能直接查看,可以使用分组后对象的。在Pandas中,可以使用。也可以使用分组后对象的。
2025-01-16 21:47:36
1357
原创 带你从入门到精通——深度学习(三. PyTorch中张量的形状重塑、拼接和自动微分)
静态计算图的优点:性能较高,可以在编译阶段对计算图进行优化,以提高计算效率,例如进行常量折叠、内存分配优化等,并且静态计算图的稳定性较高,固定的计算图结构使得代码更加稳定和可预测。动态计算图的缺点:性能较低,由于计算图的结构不固定,可能无法进行一些高级优化并且稳定性较低,由于计算图的结构在运行时变化,可能导致代码不稳定。,并且第一个参数为需要拼接的张量组成的元组,dim参数用于指定拼接的维度,指定的维度的长度可以不一样,但其它维度的长度必须一样。可以在保证张量数据不变的前提下,将其转换成指定的形状。
2025-01-13 20:48:45
1415
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅