
自然语言处理
文章平均质量分 88
TanH.blog
这个作者很懒,什么都没留下…
展开
-
ubuntu下安装nccl具体教程
使用paddlepaddle框架进行多卡训练时报错:Traceback (most recent call last): File "train.py", line 210, in <module> do_train() File "train.py", line 91, in do_train paddle.distributed.init_parallel_env() File "/home/th/anaconda3/envs/paddle/lib/pytho...原创 2022-04-10 15:29:45 · 12453 阅读 · 3 评论 -
词向量研究-GloVe词向量原理详解-通俗易懂
转载-原文:https://zhuanlan.zhihu.com/p/42073620概述GloVe:Global Vectors。模型输入:语料库 corpus模型输出:每个词的表示向量论文链接:https://aclanthology.org/D14-1162.pdf基本思想要讲GloVe模型的思想方法,我们先介绍两个其他方法:一个是基于奇异值分解(SVD)的LSA算法,该方法对term-document矩阵(矩阵的每个元素为tf-idf)进行奇异值分解,从而得到te..转载 2021-09-18 10:39:11 · 2991 阅读 · 0 评论 -
信息抽取之事件抽取任务技术调研笔记
事件抽取(Event Extraction)一、事件抽取分两大类事件识别和抽取从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。事件检测和追踪事件检测与追踪旨在将文本新闻流按照其报道的事件进行组织,为传统媒体多种来源的新闻监控提供核心技术,以便让用户了解新闻及其发展。具体而言,事件发现与跟踪包括三个主要任务:分割,发现和跟踪,将新闻文本分解为事件, 发现新的(不可预见的)事件,并跟踪以前报道事件的发展。原创 2020-11-30 17:56:29 · 7214 阅读 · 3 评论 -
Bert,Albert,Roberta,XLNet的中英文预训练模型下载网址及教程
自然语言处理的各大热门的中英文预训练模型下载网址,包含了Bert,Albert, Roberta, XLNet等模型的base和large、tensorflow和pytorch版本的预训练模型。https://huggingface.co/models以下载tensorflow版本的bert的中文预训练模型为例点击红框中的bert-base-chinese接着点击上图红框中的选项,就会有下图的文件这里我们下载的是tensorflow版本的,所以pytorch版本的文件可.原创 2020-11-19 17:58:10 · 10031 阅读 · 1 评论 -
中文自然语言处理领域语料库获取
github的一个收集NLP领域各大任务的大型语料库包含NLP 10任务,持续扩充中可用来预训练模型,以及训练词向量。https://github.com/brigh10tmart/nlp_chinese_corpus/原创 2020-11-10 11:42:06 · 630 阅读 · 0 评论 -
Chinese Word Vectors 中文词向量(可获取)
github地址https://github.com/Embedding/Chinese-Word-Vectors原创 2020-10-09 09:43:59 · 1994 阅读 · 1 评论 -
NLP领域的机器阅读理解方向的数据集总结
一、cloze-style(完形填空样式)CNN / Daily Mail数据集出自论文Hermann et al., 2015的《Teaching machines to read and comprehend.》这是一个使用启发式方法从CNN和Daily Mail新闻文章中创建的完形填空样式的阅读理解数据集(英文)。Close-style表示必须推断出一个缺失的单词。在本例中,“问题...原创 2019-10-18 15:59:27 · 3943 阅读 · 0 评论