
NLP
路啦路
博客仅当作个人笔记使用
展开
-
深度学习文本匹配
https://www.cnblogs.com/ZhangHT97/p/13391689.html转载 2021-01-31 10:47:54 · 453 阅读 · 0 评论 -
seq2seq
https://kexue.fm/archives/5861转载 2020-08-26 10:51:10 · 130 阅读 · 0 评论 -
bert4keras快速使用以及对抗训练
文章目录1. bert4keras快速上手2.对抗训练1. bert4keras快速上手下面是一个调用bert base模型来编码句子的简单例子:from bert4keras.models import build_transformer_modelfrom bert4keras.tokenizers import Tokenizerimport numpy as npconfig_path = '/root/kg/bert/chinese_L-12_H-768_A-12/bert_conf原创 2020-08-18 22:11:40 · 5869 阅读 · 4 评论 -
机器阅读理解笔记(上)——机器阅读理解模型架构
4.1 总体架构一般分为编码层、交互层和输出层。机器阅读理解模型的输入为文章和问题。因此,首先要对这两部分进行数字化编码,将其变成可以被计算机处理的信息单元。在编码的过程中,模型需要保留原有语句在文章中的语义。因此,每个单词、短语和句子的编码必须建立在理解上下文的基础上。我们把模型中进行编码的模块称为编码层。接下来,由于文章和问题之间存在相关性,模型需要建立文章和问题之间的联系。例如,如果问题中出现关键词“河流”,而文章中出现关键词“长江”,虽然两个词不完全一样,但是其语义编码接近。因此,文章中“原创 2020-07-28 11:27:43 · 2062 阅读 · 0 评论 -
task4-fasttext文本分类
在上一章节,我们使用传统机器学习算法来解决了文本分类问题,从本章开始我们将尝试使用深度学习方法。基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们介绍几种文本表示方法:One-hotBag of WordsN-gramTF-IDF也通过sklean进行了相原创 2020-07-27 23:04:31 · 221 阅读 · 0 评论 -
task3-基于机器学习的文本分类
学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类文本表示方法 Part1One-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海首先对所有句子的字进行索引,即将每个字确定一个编号:{‘我’: 1, ‘爱’: 2, ‘北’: 3, ‘京’: 4, ‘原创 2020-07-25 15:10:06 · 211 阅读 · 0 评论 -
NLP入门赛Task2-数据读取与分析
数据读取使用pandas读取数据from google.colab import drivedrive.mount('/content/drive')Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3原创 2020-07-22 21:55:01 · 205 阅读 · 0 评论 -
NLP入门赛Task1-赛题理解
赛题名称:零基础入门NLP之新闻文本分类比赛链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction赛题数据评测指标评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。可以通过sklearn完成f1_score计算:from sklearn.metrics import f1_scorey_true = [0, 1, 2, 0, 1, 2]y_pred = [0,原创 2020-07-20 11:16:53 · 187 阅读 · 0 评论 -
动手深度学习task1——线性回归、softmax、多层感知机
softmax与分类模型[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lXrlQNpD-1581673070121)(attachment:image.png)]torchvision包主要用来构建计算机视觉模型。1.torchvision.datasets: 一些加载数据的函数及常用的数据集接口2.torchvision.models:包含常用的模型结构(...原创 2020-02-14 17:38:30 · 258 阅读 · 0 评论 -
Knowledge-Injected BERTs
1从任务本身来看,BERT本质上是一个通用的语言模型,在进行预训练时,我们希望它能够学习到词表中每个词的词向量,即对我们平时所接触到的自然语言进行编码(encode),使之转化成模型能理解的语言。这样的设定本身存在一个小问题:通过模型编码之后的语言向量,人类无法理解,那如何才能确保模型正确地学到我们希望的知识呢?一个解决方案是,我们将模型的输出映射到原来的词表中,然后将概率最大的单词作为模型的...原创 2020-02-11 18:11:34 · 325 阅读 · 0 评论 -
知识图谱综述学习笔记
1. 知识图谱的定义与架构1.1 知识图谱的定义在维基百科中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上:知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已经被用来泛指各种大规模的知识库。三元组是知识图谱的一种通用表示方式,即G=(E,R,S)。1.2 知识图谱的架构包括自身的逻辑结构及体系架构。1)知...原创 2020-02-10 21:50:20 · 1229 阅读 · 0 评论 -
NLP实践Task2——特征提取
任务描述基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库)2.1 语言模型中unigram、bigram、trigram的概念;2.2 unigram、bigram频率统计;(可以使用Python中的collections.Cou...原创 2019-06-24 17:05:24 · 267 阅读 · 0 评论 -
NLP理论基础及实践Task1——探索THUCNews数据
一、THUCNews数据集的准备THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。下载链接:https://pan.baidu.com/s/1hugrfRu 密码:qfudcnew文件夹数据说明:cnews.train.txt: 训练集(50000条)cnews.val.txt: 验...原创 2019-06-21 20:09:47 · 954 阅读 · 0 评论