项目实战
要努力的鱼~
梦想不大,道路很长,开始了就不会停下!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SQUAD数据集分析
数据集demo总结:object 包含了data和version。data中包含了好多条文本(doc),每条文本包含题目(title)和不同段落(paragraphs),每个段落中包含qas(问题和答案)。原创 2020-08-03 22:09:58 · 2676 阅读 · 0 评论 -
初识文本分类
文本分类的认识传统的文本分类文本分类被拆分成特征工程和分类器两个部分文本预处理:指的是对数据集进行处理,去除掉一些无用的信息,如特殊字符,标点符号等等。特征提取:简单来说,就是在文本中提取与分类指标相关的关键词文本表示:就是把提取出来的文本特征转换成机器能理解的语言,传统做法常用词袋模型(BOW, Bag Of Words)或向量空间模型(Vector Space Model)分类...原创 2020-07-03 16:04:10 · 231 阅读 · 0 评论 -
Bert实战--阅读理解(一)
bert做阅读理解SquadExampleclass SquadExample(object): def __init__(self, qas_id, question_text, doc_tokens, orig_answer_text=None, ...原创 2020-03-13 20:52:31 · 1793 阅读 · 0 评论 -
【文本分类】TextCNN的实现
模型论文可以在这里找到Convolutional Neural Networks for Sentence Classification后面的实现参考文本分类实战(二)—— textCNN 模型因为用的自己的数据集,所以在此基础上做了一点点改动代码import osimport csv#import time#import datatimeimport randomimpor...原创 2020-03-07 20:11:14 · 827 阅读 · 1 评论 -
阅读理解实战(二)
BIDAF基线模型模型介绍详细介绍可参考BiDAF-【论文笔记】模型的主要特点就是在于双向注意力流层的建立,考虑到问题到文本和文本到问题的两个方向的注意力计算。模型的输入:文本和问题模型的输出:通过point_net输出答案的开始和结束位置对应模型的每一层self._embed() #问题和文本的embeddingself._encode() #经过bi-lstm得到文...原创 2020-03-01 17:35:07 · 273 阅读 · 0 评论 -
阅读理解实战(一)
BIDAF基线模型基线系统实现数据集分析数据集是DuReader,特点是一个问题对应着多篇文章,我们要从多篇文章中抽取出正确的答案。一条训练数据样式如下:预处理这里使用的是训练好的sgns.wiki.word的词向量下载地址为sgns.wiki.word也可以建立词表,随机初始化词向量def prepare(args): """ checks data, cre...原创 2020-03-01 16:29:37 · 665 阅读 · 0 评论 -
Bert实战--文本分类(一)
使用Bert预训练模型进行文本分类bert做文本分类,简单来说就是将每句话的第一个位置加入了特殊分类嵌入[CLS]。而该[CLS]包含了整个句子的信息,它的最终隐藏状态(即,Transformer的输出)被用作分类任务的聚合序列表示。下载bert预训练模型Google提供了多种预训练好的bert模型,有针对不同语言的和不同模型大小的。我们的任务是针对临床试验筛选标准进行分类,是中文模型,所以...原创 2020-02-20 15:05:44 · 4135 阅读 · 4 评论 -
训练词向量实战
基于gensim训练中文词向量数据集下载中文维基百科数据[维基百科数据链接](https://dumps.wikimedia.org/zhwiki/),在该目录下选择最新的数据,我下载的是zhwiki-latest-pages-articles.xml.bz2创建环境conda install -n python35 python=3.5 #创建python35环境conda inst...原创 2020-02-21 11:08:12 · 468 阅读 · 0 评论
分享