
深度学习基础/原理
文章平均质量分 74
深度学习基础/原理
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
微信视频号:毛毛AIGC,欢迎关注进一步交流!
展开
-
DeepSeek-R1/Zero、RL GRPO以及蒸馏过程详解
传统方法:老师先教 1000 道例题(SFT 数据),学生模仿练习。R1-Zero 方法:直接扔给学生 100 万道题,配一台“自动批改机”。学生自己摸索解法,机器实时反馈对错。最终,学生总结出一套高效的解题套路,甚至超越老师教的答案。这就是 R1-Zero 的核心——让 AI 在“题海战术+自动批改”中自我顿悟。传统做法:召集全国名师手写答案 → 耗时十年,成本爆炸。AI 辅助做法Step1:请 10 位名师写 100 道标准答案(冷启动数据)。Step2。原创 2025-02-11 15:32:55 · 1650 阅读 · 0 评论 -
【大模型系列故事】从单词魔术师到思维巨人
直到GPT系列的诞生,特别是GPT-3和ChatGPT,它们仿佛一夜之间长大成人,能够独立思考,解决各种难题,甚至进行创造性的工作,不需要太多微调,就像是拥有广泛知识和经验的智者,能在各种场合游刃有余。在90年代,语言模型还处于蹒跚学步的阶段,就像孩子刚开始学习词汇,比如n-gram模型,它们能学会预测下一个单词,但对复杂语境的理解还很有限,像一个只会背诵单词的小朋友。总之,大语言模型的出现,就像一场科技界的文艺复兴,让机器不再是冰冷的工具,而成了有温度、有智慧的伙伴,一起开启了一个充满无限可能的新时代。原创 2024-06-04 16:18:04 · 144 阅读 · 0 评论 -
【简单、高效、性能好】SetFit:无需Prompts的高效小样本学习
由于 SetFit 使用相对较小的模型实现了高精度,因此它的训练速度非常快,而且成本要低得多。:当前的小样本微调技术需要手工制作的提示(prompts )或语言器(verbalisers)将样本转换为适合底层语言模型的格式。虽然基于比现有的少样本方法小得多的模型,但 SetFit 在各种基准测试中的表现与sota的少样本方法相当或更好。因此,训练和运行推理的速度通常快一个数量级(或更多)。由于我们的数据集有 6 个类别,我们选择的样本大小为 8,因此我们的合成数据集包含 6×8=48 个样本。原创 2022-11-28 18:05:09 · 1233 阅读 · 0 评论 -
【微软】【ICLR 2022】TAPEX:通过学习神经 SQL 执行器进行表预训练
在本文中,作者提出了一种新的以执行查询为核心的表格预训练方法——TAPEX(TAble Pretraining via EXecution)。通过逼近表上的正式语言的结构推理过程,实现了高效的表预训练。结构性推理过程与表的可执行性相关联,即表本身就能够支持各种推理操作(例如,对表中的一列进行求和)。特别是,TAPEX通过对语言模型(LM)进行预训练来模拟表上的SQL执行引擎的行为,来近似SQL查询的结构性推理过程。如图1-1所示,原创 2022-11-26 14:19:21 · 1200 阅读 · 0 评论 -
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
多标签文本分类(MLTC)是自然语言处理中的一项基本且具有挑战性的任务。以往的研究主要集中在学习文本表示和建模标签相关性上。然而,在预测特定文本的标签时,通常忽略了现有的类似实例中的丰富知识。为了解决这一问题,作者提出了一个k最近邻(kNN)机制,该机制检索几个相邻实例并用它们的标签值作为模型的输出。此外,作者设计了一个多标签对比学习目标,使模型学习到kNN的分类过程,并提高了在推理过程中检索到的相邻实例的质量。原创 2022-11-20 17:30:01 · 2073 阅读 · 0 评论 -
【NAACL 2021】RCI:在基于 Transformer 的表格问答中行和列语义捕获
RCI使用文本匹配来定位答案所在的行或者列,其中一个文本是Question,另一个文本是行或者列。RCI Interaction:序列化文本会使用[CLS]和[SEP]将问题与行或者列文本进行拼接,然后这个序列对被输入至ALBERT。最终[CLS] 隐藏层的输出用于后面的线性层和softmax,判断行或者列是否包含答案。问题的向量表示和列或者行的向量表示会先被分别算出来。然后,这两个向量按如上图所示的方式进行拼接,并使用带有softmax层的全连接层对拼接后的向量进行分类。原创 2022-10-23 16:52:26 · 772 阅读 · 0 评论 -
Prompt Learning——Template
template(可以是特定的文本tokens或抽象的新的tokens ,唯一的区别是初始化)是提示学习框架中最重要的模块之一。请注意,hard template 将使用模型进行优化,而 soft token 将被单独优化。初始化也是有区别的:注意如果两个soft token具有相同soft_ids的 ,它们将共享嵌入:如果尝试定义 10000 个 soft token,可以使用关键词 duplicate:如果您尝试定义 10000 个相同的soft token,可以使用关键词 same:Post原创 2022-07-05 19:10:12 · 1027 阅读 · 0 评论 -
【ICLR 2022】Trans-Encoder:通过自蒸馏和相互蒸馏的无监督句对建模
自然语言处理和信息检索中的许多任务都涉及句子的成对比较——例如,句子相似性检测、释义识别、问答蕴涵和文本蕴涵。最准确的句子比较方法是所谓的cross-encoding,它在逐对的基础上将句子相互映射。然而,训练cross-encoders 器需要带标注的训练数据,收集这些数据是劳动成本很高。我们如何为句子对任务训练完全无监督的模型,从而消除对数据标注的需求呢?原创 2022-07-01 16:59:28 · 662 阅读 · 0 评论 -
【NAACL 2021】AugSBERT:用于改进成对句子评分任务的 Bi-encoder 数据增强方法
论文地址:https://arxiv.org/abs/2010.08240目前,最先进的 NLP 架构模型通常重用在 Wikipedia 和 Toronto Books Corpus 等大型文本语料库上预训练的 BERT 模型作为基线。通过对深度预训练的 BERT 进行微调,发明了许多替代架构,例如 DeBERT、RetriBERT、RoBERTa ……它们对各种语言理解任务的基准进行了实质性改进。在 NLP 中的常见任务中,成对句子评分在信息检索、问答、重复问题检测或聚类等方面有广泛的应用。原创 2022-06-21 16:53:33 · 1099 阅读 · 0 评论 -
预训练语言模型介绍合辑
RoBERTa 也对 batch 大小进行了实验,原始的 BERT 使用的 batch = 256,训练步数为 1M,这与 batch = 2K,训练步数 125K 的计算量是一样的,与 batch = 8K 和训练步数为 31K 也是一样的。针对bert存在的第二个问题,ERNIE对NSP任务做了修改,输入层使用多轮对话来替代句子对分类任务。比如一句话:‘北京是中国的首都,是一座美丽的城市’,在bert的随机mask LM任务中,可能是把‘京’mask掉在再做预测,这样就把‘北京’两个字的语义割裂了。原创 2022-03-24 15:21:54 · 1914 阅读 · 0 评论 -
rasa 介绍文档
Rasa Open Source: NLU (理解语义) + Core (决定对话中每一步执行的actions)Rasa SDK: Action Server (调用自定义的 actions)Rasa NLU理解用户的对话,提取出感兴趣的信息 (如意图分类、实体提取等),以pipeline的方式处理用户对话,在config.yml中配置。Rasa Core根据NLU输出的信息、以及Tracker记录的历史信息,得到上下文的语境:预测用户当前最可能表达的意图;原创 2022-01-25 15:34:18 · 2991 阅读 · 0 评论 -
【RASA】TED Policy:Dialogue Transformers
计算嵌入之间的差异,TED Policy最大化与目标标签的相似性并最小化与错误标签的相似性,这是一种基于Starspace算法的技术。自注意力机制发挥作用的地方:transformer 在每一轮动态访问对话历史的不同部分,然后评估和重新计算前几轮的相关性。在每个对话回合,TED Policy将3部分信息作为输入:用户消息的意图和实体、预测的先前执行的Action、槽位。当需要预测下一个系统动作时,所有可能的系统动作根据它们的相似度进行排序,并选择相似度最高的动作。那这3部分是如何特征化的呢?原创 2021-12-16 18:08:58 · 761 阅读 · 0 评论 -
【RASA】DIET:Dual Intent and Entity Transformer
最近工作中使用到rasa,其nlu部分有一个rasa自己提出的DIETClassifier框架组建,可用于意图分类与实体识别。今天有空,就来研究下它~论文地址:https://github.com/RasaHQ/DIET-paper简介先总结下DIET出彩的地方:DIET是一种用于意图分类和实体识别的多任务体系结构。它能够以即插即用的方式结合语言模型的预训练单词嵌入,并将它们与单词和字符级 n-gram 稀疏特征结合起来。实验表明,即使没有预训练的嵌入,仅使用单词和字符级 n-gram 稀疏特原创 2021-11-28 10:47:25 · 1576 阅读 · 2 评论 -
搜索与问答——【EMNLP 2021】TSDAE:基于Transformer的顺序去噪自动编码器
TSDAE(Transformer-based Sequential Denoising Auto-Encoder)模型使用纯句子作为训练数据来无监督训练句子向量。在训练期间,TSDAE 将加了噪声的句子编码为固定大小的向量,并要求decoder从这个句子表征中重建原始句子。为了获得良好的重建质量,必须在encoder的句子向量中很好地捕获语义。在后续推理时,我们只使用encoder来创建句子向量。架构如下图所示:encoder部分就是将带噪音的文本进行编码。原创 2021-09-16 17:13:56 · 1340 阅读 · 0 评论 -
【EMNLP 2021】SimCSE:句子嵌入的简单对比学习 && 【CVPR 2021】理解对比学习损失函数及温度系数
SimCSE(Simple Contrastive Learning of Sentence Embeddings)是一种简单在没有监督训练数据的情况下训练句子向量的对比学习方法。这个方法是对同一个句子进行两次编码。由于在 Transformer 模型中使用了 dropout,两个句子表征的位置将略有不同。目标函数 Multiple Negatives Ranking Loss:其中,z和z’ 是两个不同的dropout随机掩码。原创 2021-09-16 10:34:25 · 1934 阅读 · 0 评论 -
【ICLR 2021】CT:具有对比张力的语义重调
论文《SEMANTIC RE-TUNING WITH CONTRASTIVE TENSION》地址:https://openreview.net/pdf?之前讲到的是用有监督的方式进行句子向量的匹配等任务。那当没有标注数据的时候,如何训练出更好的句子向量呢?本文作者提出了“对比张力”(CONTRASTIVE TENSION)的对比学习方案——CT:如上图所示,在训练期间,CT 构建了两个独立的编码器(“Model1”和“Model2”),它们共享初始参数以对一对句子进行编码。原创 2021-09-15 21:06:35 · 742 阅读 · 2 评论 -
【EMNLP 2019】Sentence-BERT
在许多NLP任务(特别是在文本语义匹、文本向量检索等)需要训练优质的句子表示向量,模型通过计算两个句子编码后的Embedding在表示空间的相似度来衡量这两个句子语义上的相关程度,从而决定其匹配分数。尽管基于BERT在诸多NLP任务上取得了不错的性能,但其自身导出的句向量(【CLS】输出的向量、对所有输出字词token向量求平均)质量较低。由于BERT输出token向量预训练中,后面接的的分类的任务。所以其实输出token向量并不适合作为生成句子表示。原创 2021-09-15 19:38:53 · 2013 阅读 · 0 评论 -
解读:全民K歌直播推荐算法
看上图示意,应该是每个模态embedding单独与user embedding进行相似度训练。**这样做的话,每个item就会存在3个embedding。但这种方案就忽略了不同模态之间的权重。**我想到的另外一种方案是,其实就是从每个field做emb,变成每个bit unit做emb,在实现上反而更加统一方便。就是将j维映射到i维向量的全连接神经网络。这样不同bit维的特征就能进行自由的交叉了。但这会出现的问题是:有些直播间可能不存在Song ID,需要做特征缺失处理。这里定义了所谓的KFM,其实可以。原创 2021-08-07 19:34:58 · 1196 阅读 · 0 评论 -
多任务学习——【ICLR 2020】PCGrad
最后来看看效果吧~如下图所示,图b是任务1的目标的等高线图,图c是任务2的目标等高线图。图C是使用Adam优化目标梯度更新轨迹,可以看到当下时刻两个任务梯度方向是存在冲突的。而图e使用Adam+PCGrad,可以看到目标梯度更新轨迹穿越等高线就非常顺滑了。在一系列具有挑战性的多任务监督和多任务 RL 问题上,这种方法在效率和性能方面取得了实质性的进展。具体实验结果如下图,紫色为作者的结果。在多任务学习中,由于不同任务梯度之间的更新方向不同,如上图, 我们设要求的投影向量(蓝色虚线)为。原创 2021-08-01 19:01:01 · 3050 阅读 · 0 评论 -
多任务学习——【RecSys 2020】【腾讯视频】PLE
当不同的学习任务之间较为相关时,多任务学习可以通过任务之间的信息共享,来提升学习的效率。但任务之间的相关性并不强,多任务学习可能带来负迁移(negative transfer)跷跷板现象,相关性不强的任务之间的信息共享会影响网络的表现。则是第k个任务的Experts的输出,包含了 Experts k和Experts Shared。PLE就是多层的CGC。原创 2021-07-31 21:16:37 · 440 阅读 · 0 评论 -
多任务学习——【ICML 2018】GradNorm
由于各任务在训练过程中自己的梯度量级和收敛速度也是动态变化的,所以很显然这样定值的w做并没有很好的解决问题。从上图可知,GradNorm 是以平衡的梯度作为目标,优化Grad Loss,从而动态调整各个任务的w。,可能导致有些任务还处于欠拟合,可有些任务已经过拟合了。,造成有的task在梯度反向传播中占主导地位,模型过分学习该任务而忽视其它任务。论文链接:https://arxiv.org/pdf/1711.02257.pdf。r调节着任务收敛速度:收敛速度越快,要注意的是,上式中,减号后面的项,是。原创 2021-07-25 16:18:58 · 1306 阅读 · 1 评论 -
《搜索和推荐中的深度匹配》——2.5 延伸阅读
Query重构是解决搜索中查询文档不匹配的另一种方法,即将Query转换为另一个可以进行更好匹配的Query。Query转换包括Query的拼写错误更正。例如,【1】提出了一种源渠道模型,【2】 提出了一种用于该任务的判别方法。Query转换还包括Query分段【3】【4】【5】。受统计机器翻译 (SMT) 的启发,研究人员还考虑利用翻译技术来处理Query文档不匹配问题,假设Query使用一种语言而文档使用另一种语言。【6】利用基于单词的翻译模型来执行任务。原创 2021-06-25 16:35:26 · 370 阅读 · 0 评论 -
《搜索和推荐中的深度匹配》——2.4 推荐中的潜在空间模型
接下来,我们简要介绍在潜在空间中执行匹配的代表性推荐方法,包括偏置矩阵分解 (BMF)【1】、Factored Item Similarity Model (FISM) 【2】和分解机 (FM)【3】。参阅。原创 2021-06-25 14:44:39 · 491 阅读 · 1 评论 -
深度推荐模型——BERT4Rec [CIKM 19][Alibaba]
2、BST有target item 输入,是二分类的匹配模型。1、BERT4Rec引入了BERT 预训练预测MASK Token的方式,提升了模型的泛化性。可以先参阅阿里的另外一篇论文。原创 2021-05-18 11:32:23 · 538 阅读 · 0 评论 -
图神经网络——【KDD 2019】KGAT
深度推荐算法(如DeepFM等)模型有个缺点:将训练数据里(用户交互数据)的特征进行独立建模,没有考虑到交互数据之间的关系。这使得这些模型不足以从用户的行为中提取出基于属性的协同信息。如上图:用户u1 看了电影i1 ,这个电影是 ei 导演的,传统的CF方法会着重去找那些也看了电影i1 的用户,比如u4、u5 。而监督学习方法会重点关注那些有相同属性ei 的电影,比如 i2。很显然这两类信息都可以作为推荐信息的补充,但是现有的模型不能做到上面两者信息的融合,而且这里的高阶关系也可以作为推荐信息的补充的。比原创 2021-05-17 19:04:33 · 698 阅读 · 0 评论 -
《搜索和推荐中的深度匹配》——1.5 近期进展
尽管传统的机器学习在搜索和推荐匹配方面取得了成功,但深度学习的最新进展为该领域带来了更为重大的进步,提出了许多深度匹配模型。深度学习模型的能力在于能够从原始数据(例如,文本)中学习匹配问题的分布式表示形式,避免手工制作功能的许多限制,并以端到端的方式学习表示形式和匹配网络。此外,深度神经网络具有足够的能力来对复杂的匹配任务进行建模。它们具有灵活性,可以自然地扩展到跨模式匹配,在这种模式下,可以学习通用语义空间来普遍表示不同模式的数据。所有这些特征有助于处理搜索和推荐的复杂性。原创 2021-05-17 17:26:58 · 270 阅读 · 0 评论 -
图神经网络——【SIGIR 2019】NGCF
从早期的矩阵分解到最近出现的基于深度学习的方法,现有的工作通常通过从描述用户(或项目)的现有特性(如ID和属性)映射来获得用户(或项目)的嵌入。作者认为,这种方法的一个固有缺点是,隐藏在用户-项目交互中的协作信号没有在嵌入过程中编码。因此,由此产生的嵌入可能不足以捕获协作过滤效果。作者提出了一个新的推荐框架Neural Graph Collaborative Filtering (NGCF) ,它可以在图结构中学习嵌入表示,让模型可以表达高维特征,显示地将协同过滤信号放入到嵌入过程中。原创 2021-05-17 11:56:20 · 623 阅读 · 0 评论 -
图神经网络——【KDD 2018】PinSage
可以先参阅。本文将基于GraphSAGE来讲讲PinSage。原创 2021-05-14 17:40:43 · 753 阅读 · 0 评论 -
图神经网络——【NIPS 2017】GraphSAGE
直推式(transductive)学习方法是在一个固定的图上直接学习每个节点embedding,但是大多情况图是会演化的,当网络结构改变以及新节点的出现,直推式学习需要重新训练(复杂度高且可能会导致embedding会偏移),很难落地在需要快速生成未知节点embedding的机器学习系统上。本文提出归纳学习—GraphSAGE(Graph SAmple and aggreGatE)框架,通过训练聚合节点邻居的函数(卷积层),使GCN扩展成归纳学习任务,对未知节点起到泛化作用。原创 2021-05-14 14:14:01 · 544 阅读 · 1 评论 -
《搜索和推荐中的深度匹配》——1.4 推荐匹配的挑战
不匹配的问题在推荐中更加严重。在搜索中,查询和文档由相同语言的术语组成,这使得对它们的术语进行直接匹配至少有意义。但是,在推荐中,用户和商品通常由不同类型的特征表示,例如,用户的特征可以是用户ID,年龄,收入水平和最近的行为,而商品的特征可以是商品ID,类别,价格和品牌名称。由于用户和项目的特征来自不同语义的空间,因此基于表面特征匹配的幼稚方法不适用于推荐。更具挑战性的是,这些商品可以通过多模式特征来描述,例如服装产品的图像和电影的封面图像,它们可能在影响用户的决策中起关键作用。原创 2021-05-13 15:36:33 · 283 阅读 · 0 评论 -
当前音乐推荐系统研究中的挑战和愿景
近年来,由于在线流媒体服务的出现和成功,音乐推荐系统(MRS)经历了飞速发展,如今,在线推荐服务几乎可以使所有音乐触手可及。尽管当今的MRS可以极大地帮助用户在这些庞大的目录中找到有趣的音乐,但MRS的研究仍面临着严峻的挑战。特别是在构建、合并和评估推荐策略时,这些策略除了将信息整合到简单的用户物品交互、基于内容表达之外,还需要深入挖掘听众的需求、偏好和意图的本质。MRS研究成为很大的努力方向,但相关的出版物却很少。此趋势和调查文章的目的是双重的。原创 2020-09-21 18:50:13 · 4867 阅读 · 0 评论 -
多任务学习——【SIGIR 2018】ESMM
由于CTR任务的训练样本量要大大超过CVR任务的训练样本量,ESMM模型中特征表示共享的机制能够使得CVR子任务也能够从只有展现没有点击的样本中学习,从而能够极大地有利于缓解训练数据稀疏性问题。点击—>转化,本身是两个强相关的连续行为,作者希望在模型结构中显示考虑这种“行为链关系”,从而可以在整个空间上进行训练及预测。在整个样本空间建模,而不像传统CVR预估模型那样只在点击样本空间建模。原创 2021-05-11 14:28:18 · 225 阅读 · 0 评论 -
多任务学习——【KDD 2018】MMoE
多任务学习的的框架广泛采用 shared-bottom 的结构,不同任务间共用底部的隐层。这种结构本质上可以减少过拟合的风险,但是效果上可能受到任务差异和数据分布带来的影响。也有一些其他结构,比如两个任务的参数不共用,但是通过对不同任务的参数增加 L2 范数的限制;和 shared-bottom 结构相比,这些模型对增加了针对任务的特定参数,在任务差异会影响公共参数的情况下对最终效果有提升。多任务模型通过学习不同任务的联系和差异,可提高每个任务的学习效率和质量。是最原始的多任务学习模型。原创 2021-05-10 19:50:19 · 310 阅读 · 0 评论 -
多轮检索式对话——【IJCAI 2019】DGMN 基于文档背景的个性化对话
这里的人物设定被写在一个document中,即document-grounded。用CNN从3个匹配矩阵中抽取匹配向量,连接起来,预测匹配度。就是在用Self-Attention。原创 2021-05-03 15:19:54 · 490 阅读 · 1 评论 -
多轮检索式对话——【WSDM 2019】MRFN
本文的Motivation是建立在最近几年多轮检索式对话基于的面向交互的思想是。回想一下从引入交互,到完全基于交互,再到多层交互。交互的粒度越多越work已经是大家的共识了。但如何更好的设计各个粒度之间的层次关系,减少不必要的性能浪费呢?作者提出把粒度划分为word, short-term, long-term三个粒度6种表示:WordContextualAttention-based(和DAM一样)原创 2021-05-02 16:31:04 · 564 阅读 · 1 评论 -
多轮检索式对话——【ACL 2018】DAM
文本对于context和response语义上的联系更进一步,将 attention 应用于多轮对话,打破之前的 RNN 和 CNN 结构,在多轮上速度快,达到了目前最好效果。有n句utterance,Q就有有n个切片。对应n个utterance-response对的匹配矩阵, 每一片的尺寸都是(n_u_i, n_r)对应匹配矩阵中每个矩阵的尺寸。主要用到:self-attention 和 cross-attention。原创 2021-05-01 17:03:58 · 355 阅读 · 1 评论 -
多轮检索式对话——【COLING 2018】DUA
本文来自COLING2018, 文章提出, 诸如Multi-view和SMN模型都是将对话历史视为整体, 或者说每一句对于response都是平等的, 这样做会忽略对话历史的内部特征, 例如一段对话过程经常包含多个主题;此外一段对话中的词和句的重要性也都不同。原创 2021-04-25 15:46:46 · 437 阅读 · 0 评论 -
多轮检索式对话——【ACL 2017】SMN
• Utterance-Matching-M2: 对两句话的词做word embedding, 再过一层GRU提取隐状态变量h, 然后用dot(hi,A*hj)计算矩阵元素。得到的两个匹配矩阵可视为两个通道, 再传给CNN+Pooling获得一组交互特征{vi}. 交互特征传入第二个GRU层, 得到{h’i}• Word-Matching-M1: 对两句话的词做word embedding, 再用dot(ei,ej)计算矩阵元素。• attention: 利用attention机制计算{h’i}的权重。原创 2021-04-23 16:51:34 · 357 阅读 · 0 评论 -
多轮检索式对话——【EMNLP 2016】Multi-view
本文对一般词级上下文向量,以及对话语级别上下文向量理解,来进行上下文response匹配。作者提供了一种直接的单轮转多轮思路——将多轮问答语句合并为一列, 连接处用_SOS_隔开, 将整个对话历史视为"一句话"去匹配下一句。不过每次直接把 word embedding sequence 输入网络得到整个多轮对话的表示(context embedding)用GRU是很难学习的,所以文中提出将每个文本也做一次匹配,用的 TextCNN+pooling+GRU结构。原创 2021-04-18 10:58:40 · 461 阅读 · 0 评论 -
Prompt Learning——basic & 【EACL 2021】PET
PET的思想还可以进行有监督的少样本学习:对于有标签的数据,构造样本的时候,我们先给每个句子补上Pattern,除了Pattern自带的Mask位置之外,再还随机Mask其他一部分,以增强对模型的正则。第一步是确定当前的 NLP 任务,想想你的数据是什么样的,你想从数据中得到什么!也就是说,这一步的本质是确定任务的classses和InputExample。为简单起见,我们以情绪分析为例。classes = [ # 情绪分析分为两类,一类是负面的,一类是正面的"负面","正面"原创 2021-04-15 10:41:50 · 1129 阅读 · 0 评论