
自然语言处理
文章平均质量分 56
codebrid
公众号:NLP_codebrid | NLP笔记屋
展开
-
KeyError: Caught KeyError in replica 7 on device 7.
可以解决问题,但总归不是长久之计:Pytorch多GPU并行Bug收集(长期):KeyError: Caught KeyError in replica *[device_id] on device *[device_id]._wanghan0801的博客-优快云博客在单卡训练顺利的前提下,修改为多卡训练,可谓bug多多今天用pytorch 多GPU并行训练时,在最后一个step的时候报错了,KeyError: Caught KeyError in replica 5 on device 5.如图所示原创 2022-05-19 15:56:53 · 932 阅读 · 0 评论 -
Pytorch GPU利用率低
GPU 利用率低常见原因分析及优化 - 知乎GPU利用率低的解决办法_Data_Designer的博客-优快云博客_gpu利用率低https://www.youkuaiyun.com/tags/NtjaIg1sNTk3NjMtYmxvZwO0O0OO0O0O.html原创 2022-05-19 15:52:16 · 1073 阅读 · 0 评论 -
语义角色标注
原文:https://www.paddlepaddle.org.cn/documentation/docs/zh/user_guides/nlp_case/label_semantic_roles/README.cn.html背景介绍¶自然语言分析技术大致分为三个层面:词法分析、句法分析和语义分析。语义角色标注是实现浅层语义分析的一种方式。在一个句子中,谓词是对主语的陈述或说明,指出“做什么”、“是什么”或“怎么样,代表了一个事件的核心,跟谓词搭配的名词称为论元。语义角色是指论元在动词所转载 2020-09-13 19:32:57 · 5365 阅读 · 0 评论 -
元学习
从零开始,了解元学习【机器之心】https://www.jiqizhixin.com/articles/meta-learning-intro针对实验“元学习”的方法有很多,具体可以分为以下几类:https://blog.youkuaiyun.com/qq_34886403/article/details/82664879在元学习的领域,我们不再关注获取标签。与之相反,我们尝试让机器从少量的数据中更快的学习。从大量任务训练模型,并通过少量数据在新任务中更快地学习。元学习的训练过程,最初是由 O.原创 2020-06-11 15:02:26 · 334 阅读 · 0 评论 -
对话摘要 | 抽取式与生成式 | 数据集与baseline
背景:由于CVAE在summary_yxu的代码和讯飞的自己提取出来的对话数据集上,初见成效,于是这次用在一些官方的数据集上和一些对话摘要的baseline上试一下,万一效果也好呢?NOTE:再次提醒自己这次一定要用心,用心!一、文本摘要与对话摘要数据集对比 文本摘要 全文没有对话信息 DUC/TAC 英文|数据集较小|适用于传统摘要方法的评估 Gigaword...原创 2019-12-18 22:05:30 · 5222 阅读 · 7 评论 -
使用哈尔滨工业大学SCIR的开源代码训练自己的ELMo
本篇博客使用哈尔滨工业大学SCIR实验室的ELMoForManyLangs链接:https://github.com/HIT-SCIR/ELMoForManyLangs使用方法:1. gitclone 到本地2. 在Downloads处(提供了各种语言(包括简体中文)下载预训练好的语言模型,下载的语言模型中带有自己的config。3. 执行setup命令python se...原创 2019-05-26 15:05:20 · 3102 阅读 · 1 评论 -
数据增强与数据扩充
数据扩充方法在图像上很常用:方法有:左右翻转、随机裁剪、旋转、平移、噪声扰动、亮度对比度变换等许多简单高效的方法;其作用是增大数据集且提高泛化效果,随手百度都有很多讲解。在文本上的使用:方法有:同义词替换(这种方法比较大的局限性在于同义词在NLP中通常具有比较相近的词向量,因此对于模型来说,并没有起到比较好的对数据增强的作用)反向翻译(这是机器翻译中一种非常常用的增强数...原创 2019-02-26 15:06:02 · 6142 阅读 · 0 评论 -
句子的检错/纠错
一、句子的检错纠错,如下四种方法:1、检错部分:1.1. 序列标注:本来的序列标注是进行命名实体识别的任务,在检错任务中将其改成01标注,使用O标注正确的词,使用S-1标注错误的词。数据处理:保证了错误的句子占全部句子的25%; sent: right_sent:342803; wrong_sent:101565;(3:1)vocab_num:102674;word: ri...原创 2018-11-22 17:10:40 · 1783 阅读 · 0 评论 -
哈工大【LTP】
哈工大【LTP】LTPLTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的中文语言处理模块,以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口、可视化工具,并且能够以网络服务(Web Service)的形式进行使用。(LTP-server)开源代码:https://github.com/HIT-SCIR/ltp在线文档...转载 2018-10-27 16:17:23 · 717 阅读 · 0 评论 -
pytorch初学(1)(安装及入门)
新手初学,在此记录,希望能对大家有所帮助一、安装pytorch下载网址https://ptorch.com/news/30.html在此网址内选择自己系统以及版本进行下载,避免了官网点不动、commend无法生成的问题。安装过程中遇到问题:oserror 13 permission deny 解决方法:1.sudo 参考http://blog.youkuaiyun.com/jiangjieqazwsx/art...原创 2017-10-26 16:22:24 · 1175 阅读 · 0 评论 -
pytorch入门(3)pytorch-seq2seq模型
pytorch入门(3)pytorch-seq2seq模型原创 2017-11-02 18:19:40 · 5898 阅读 · 0 评论 -
初学nlp&nn
一N-gram语言模型http://www.cnblogs.com/wzm-xu/p/4229819.html链规则p(S)被称为语言模型,即用来计算一个句子概率的模型。http://blog.youkuaiyun.com/xiaokang06/article/details/17965965推荐开源语言模型工具: 推荐开源n-gram数据集: 由公式可知,迷惑度越小,句子概率越原创 2017-08-27 10:29:28 · 569 阅读 · 0 评论