- 博客(7)
- 收藏
- 关注
原创 文本生成:基于GPT-2的中文新闻文本生成
文本生成一直是NLP领域内研究特别活跃的一个任务,应用前景特别广泛。BERT类预训练模型基于MLM,融合了双向上下文信息,不是天然匹配文本生成类任务(也有针对BERT模型进行改进的多种方式完善了BERT的这个缺点,如UniLM)。openAI的GPT-2模型天然适合文本生成类任务,因此使用GPT-2模型来完成中文新闻文本生成任务。数据集数据集是THUCnews的,清华大学根据新浪新闻RSS订阅...
2020-03-07 00:42:27
16079
40
原创 中文文本分类:基于PyTorch的多模型中文文本分类
文本分类作为自然语言处理中最基本的一大任务,应用面特别广,有“万物皆可分”之说,可见其重要性。本文基于PyTorch实现多个模型对中文文本进行分类、比较任务,分别为在序列维度上取平均得到句子表示的简单AVG基线模型、使用[2,3,4]kernel size后concate的CNN模型、双向LSTM模型及BERT模型。项目代码:BERT中文预训练模型:百度网盘链接,提取码:mpzx数据集数据...
2020-03-01 12:55:24
5734
4
原创 中文命名实体识别:基于PyTorch的多模型中文命名实体识别
命名实体识别作为序列标注类的典型任务,其使用场景特别广泛。本项目基于PyTorch搭建HMM、CRF、BiLSTM、BiLSTM+CRF及BERT模型,实现中文命名识别任务,部分内容参考了https://zhuanlan.zhihu.com/p/61227299,全部代码链接上可找。数据集数据集来源于ACL 2018Chinese NER using Lattice LSTM论文中从新浪财经收...
2020-02-29 00:04:10
12558
9
原创 基于PyTorch实现Seq2Seq + Attention的英汉Neural Machine Translation
NMT(Neural Machine Translation)基于神经网络的机器翻译模型效果越来越好,还记得大学时代Google翻译效果还是差强人意,近些年来使用NMT后已基本能满足非特殊需求了。目前NMT的主流模型是采用Seq2Seq + Attention架构,本文基于PyTorch实现一个小型的英文到中文的翻译系统。1、数据集数据集及全部代码下载链接:训练数据为14K左右的中英平行语料...
2020-02-23 00:50:00
3486
8
原创 投资知道 基于BERT的中文最佳答案推荐
前一篇文章https://blog.youkuaiyun.com/zp563987805/article/details/104350670里我们实现了投资论坛里问题答案是否匹配的自动检测模型,但对于这类问答论坛,还有个特别重要的功能:最佳答案推荐,即基于现有的问答数据库,对于用户提出的问题推荐最匹配该问题的答案。本篇文章就该问题提出解决方案。1、数据集原始数据集还是上篇文章中的投资知道数据集,总共58W...
2020-02-21 19:54:37
1510
原创 投资知道 基于BERT的中文问答匹配检测
投资知道 最佳答案推荐本项目基于BERT中文预训练模型,使用huggingface transformers开源工具库实现中文关于投资知道的最佳问答系统的模型实现。问题适用场景:投资问答/论坛等,根据已有的答复,推荐与问题最匹配的答案模型、代码及数据下载地址下载链接:原始BERT预训练模型为chinese_wwm_pytorch,下载地址哈工大崔一鸣开源的中文预训练模型,网盘上也有,主...
2020-02-17 15:54:22
4525
7
原创 Pytorch实现word2vec训练
Pytorch实现word2vec主要内容Word2Vec的原理网上有很多很多资料,这里就不再复述了。本人使用pytorch来尽可能复现Distributed Representations of Words and Phrases and their Compositionality论文中训练词向量的方法。论文中有很多模型实现的细节,这些细节对于词向量的好坏至关重要。我们虽然无法完全复现论...
2020-02-06 22:13:54
2707
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人