
NLP自然语言处理
文章平均质量分 80
Just Jump
勿忘来时路上的脚印。站在巨人的肩膀上。
你没有比别人更努力,更不会比别人更不努力。你只是按照你能做到的、最适合你自己的办法去实现自己的目标,去成长为你眼中优秀的人们中的一员。
你自己、优秀的人群;决心、视野;自律、标准。
业精于勤,行成于思。
古之成大事者,不惟有超世之才,亦必有坚韧不拔之志。
苟有恒,何必三更起五更眠;最无益,只怕一日曝十日寒。 十五年只做一个行当。
展开
-
Bert中文文本分类
这是一个经典的文本分类问题,使用google的预训练模型BERT中文版bert-base-chinese来做中文文本分类。可以先在Huggingface上下载预训练模型备用。我使用的训练环境是。原创 2024-12-27 17:27:56 · 1701 阅读 · 0 评论 -
机器翻译基础与模型 之四:模型训练
它们的区别在于合并子词的方式,基于BPE 的方法选择出现频次最高的连续字符进行合并,而基于语言模型的方法则是根据语言模型输出的概率选择要合并哪些子词。因为相互适应的神经元可以更好的描述训练数据中的现象,但是在测试数据上,由于很多现象是未见的,细微的扰动。所谓适定解,需要满足三个条件:解是存在的、解是唯一的、解是稳定的(即 y 微小的变化会导致 x 微小的变化,也被称作解连续)。常用的手段包括两种,一种是采用字词融合的方式构建词表,将未知单词转换为字符的序列并通过特殊的标记将其与普通的单词区分开来。原创 2024-11-24 17:52:24 · 1108 阅读 · 0 评论 -
机器翻译基础与模型 之三:基于自注意力的模型
Transformer 模型仅仅使用自注意力机制和标准的前馈神经网络,完全不依赖任何循环单元或者卷积操作。很好地解决了单词间长距离依赖的问题。自注意力机制非常适合在 GPU 上进行并行化,因此模型训练的速度更快。原创 2024-11-20 21:17:00 · 1178 阅读 · 0 评论 -
机器翻译基础与模型 之二: 基于CNN的模型
相比于全连接网络,卷积神经网络最大的特点在于具有局部连接(Locally Connected)和权值共享(Weight Sharing)的特性。原创 2024-11-20 14:31:28 · 568 阅读 · 0 评论 -
机器翻译基础与模型 之一: 基于RNN的模型
之后中间层会对词嵌入向量进行更深层的抽象,得到输入单词序列的中间表示。LSTM:seq2seq学习的方法,缓解了梯度消失/爆炸问题,通过遗忘门的设计让网络选择性的记忆信息,缓解了序列中长距离依赖的问题。对序列中某个位置的答案进行预测时需要记忆当前时刻之前的序列信息,这就是RNN网络诞生的背景。RNN处理序列问题的实例: 循环单元的输入由上一时刻的输出和当前时刻的输入组成。(2)句子的表示学习,即在词嵌入的基础上获取整个序列的表示。基于规则的-->基于实例的-->基于统计方法的-->基于神经网络的。原创 2024-11-19 17:41:40 · 1345 阅读 · 0 评论 -
大语言模型LLM综述
(3) 前缀解码器: 也称为非因果解码器架构,修正了因果解码器的掩码机制,使其能够对前缀标记执行双向注意力,并对生成的标记执行单向注意力。(4) 注意力机制和偏差: 原始的Transformer是全自注意力机制,GPT-3采用了稀疏注意力机制,即分解注意力,计算复杂度更低。- GPT -4模型API接口:gpt-4、gpt-4-0314、gpt-4-32k、gpt-4-32k-0314。如BERT、GPT-2。(2)基于启发式的方法: 基于语言的过滤、基于度量的过滤、基于统计的过滤、基于关键词的过滤。原创 2024-11-13 20:34:13 · 1326 阅读 · 0 评论 -
NLP-使用Word2vec实现文本分类
将文本转化为向量try:continuereturn vec# 这段代码定义了一个函数 average_vec(text),它接受一个包含多个词的列表 text 作为输入,并返回这些词对应词向量的平均值。该函数# 首先初始化一个形状为 (1, 100) 的全零 numpy 数组来表示平均向量# 然后遍历 text 中的每个词,并尝试从 Word2Vec 模型 w2v 中使用 wv 属性获取其对应的词向量。如果在模型中找到了该词,函数将其向量加到 vec 中。原创 2024-07-23 17:43:49 · 599 阅读 · 0 评论 -
[译]Gensim FastText 模型
此篇为翻译GENSIM官网中有关FastText model的内容。我用自己moke的数据代替原文中的语料做模型训练例子。之前文章介绍过word2vec模型有一个缺陷就是对于词库外的词不能给出向量表示,但是FastText模型可以很好的解决这个问题。FastText模型是Facebook开发的一个向量表征模型,它既支持直接调用,也可以根据自己的业务场景需求自己训练。下面介绍下FastText模型的几种快速启动使用方法。翻译 2024-07-23 11:19:52 · 155 阅读 · 0 评论 -
自训练和增量训练word2vec模型
我们希望通过自己训练业务相关的语料word2vec模型来获得词嵌入、词相关性查询等。根据自己的业务场景准备训练数据,比如用户在商城上的同购行为序列或同浏览行为序列。原创 2024-07-22 17:01:59 · 774 阅读 · 0 评论 -
HuggingFace开源的自然语言处理AI工具平台
Transformers:一个提供了数千种预训练好的NLP模型(如BERT、GPT-3等)以及相应工具包(如PyTorch、TensorFlow等)接口的库,可以方便地加载、使用、修改、分享这些模型;HuggingFace是一个开源的自然语言处理AI工具平台,它为NLP的开发者和研究者提供了一个简单、快速、高效、可靠的解决方案,让NLP变得更加简单、快速、高效、可靠。Hub:一个提供了一个在线的模型和数据集的仓库,可以方便地浏览、搜索、下载、上传、分享自己或他人的NLP模型和数据集;原创 2023-08-16 15:08:13 · 1894 阅读 · 0 评论 -
【转】embedding概念理解
原文链接:https://blog.youkuaiyun.com/qq_35799003/article/details/84780289原文是翻译的google developer的机器学习入门课程。主要觉得有几个点,很能说明embedding的本质,以及为什么要用embedding来做矢量化。以下我对原文做了我需要的信息的摘录,需要阅读原文的请自行去上面链接查看。1、分类数据矢量化分类数据是指表示来自有限选择集的一个或多个离散项的输入特征。分类数据最直接的是通过稀疏张量(sparse tensors).转载 2020-10-02 07:05:40 · 3383 阅读 · 0 评论 -
【转】沈向洋博士学术演讲全录: “Engeering Responsible AI ”构建负责任的 AI
原文链接:https://www.sohu.com/a/378059570_651893今天的演讲主题是《Engineering responsible AI 》,众所周知,AI是一个热词,每个人都在谈论,实际上所有大企业的高管也都在谈论AI,可能你不理解为什么?这是因为人工智能的反义词是天生愚钝,所以你不得不谈论它。今天我真的想和大家分享一些东西,讨论为什么我们真的有点儿需要担忧AI。人们谈论的 AI 听起来非常花哨和科幻,但事实并不是。人们使用AI的场景无处不在,无时不在,非常简单的一个例子转载 2020-07-24 14:59:15 · 1047 阅读 · 0 评论 -
【转】【NLP】【ACL2020】DeeBERT:衡量性能与效率的 BERT 推理方法
原文链接:【ACL2020】DeeBERT:衡量性能与效率的 BERT 推理方法DeeBERT作者信息Elesdspline目前从事NLP与知识图谱相关工作。导语近年来预训练在 NLP 领域的各个任务上都表现出来很好的效果,但是在推理速度方面却不如人意,所以有很多的研究针对如何加快推理而提出了各种各样的尝试。本文针对加快 BERT 预训练模型的推理速度提出的相关方法,提出了一种简单而有效的方法 DeeBERT 来加速 BERT 推理,该允许在不经过整个模型的情况下提前退出,转载 2020-07-14 20:50:04 · 1442 阅读 · 0 评论