
情感分析
睡熊猛醒
千里之行,始于足下。
展开
-
斯坦福NLU笔记之情感分析
1.情绪分析的一般实用技巧分词介绍了三种分词:Whitespace tokenizer, 就是空格分词。Treebank tokenizer, 斯坦福大学的树状分词。Sentiment-aware tokenizer, 情感感知分词器,隔离表情符号,使用基础标记,在看起来有意义的地方保留大写... ...(A good start: nltk.tokenize.casual.T...原创 2020-01-02 16:14:51 · 862 阅读 · 0 评论 -
使用BERT进行情感分析
年前最后一篇,就写个自己使用BERT的流程步骤,提前祝大家新年快乐~## STEP1:构建模型class Config(object): """配置参数""" def __init__(self, dataset): self.model_name = 'bert' self.train_path = dataset + '/data/tr...原创 2019-12-28 21:35:19 · 4357 阅读 · 6 评论 -
ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 论文翻译
文前总结:ERNIE2.0的亮点:1.融合了持续学习(continual Learning)、多任务学习、知识引入等多种套路。2.构造的任务可以分为三类:1) word-aware tasks用于教模型捕捉词汇信息(lexical information);2) structure-aware task教模型捕捉句法信息(syntactic information);3) semant...翻译 2019-12-21 21:39:46 · 1625 阅读 · 0 评论 -
Smaller, faster, cheaper, lighter: Introducing DistilBERT, a distilled version of BERT 翻译
paper:https://arxiv.org/pdf/1910.01108v2.pdfcode:https://github.com/huggingface/transformersTime: 2019.10在过去的18个月中,在过去的18个月中,几乎所有的自然语言处理任务都从大型语言模型进行迁移学习这一方式达到了SOTA效果。通常基于Vaswani等人的Transformer体...翻译 2019-12-15 22:20:33 · 746 阅读 · 0 评论 -
FastText原理以及pytorch简单实现
paper:https://arxiv.org/pdf/1607.01759v3.pdfcode:https://github.com/facebookresearch/fastTextTime:2017.051.FastText的原理fastText 方法包含三部分:模型架构、层次 Softmax 和 N-gram 特征。fastText 模型输入一个词的序列(一段文本或...原创 2019-12-15 16:37:09 · 4436 阅读 · 2 评论 -
《半监督文本分类的对抗训练方法》 理解笔记
paper:https://arxiv.org/pdf/1605.07725v3.pdfcode:https://github.com/tensorflow/models/tree/master/research/adversarial_textTime: 2016.050.摘要对抗训练提供了一种正规化监督学习算法的方法,而虚拟对抗训练能够将监督学习算法扩展到半监督环境。 但是...原创 2019-12-14 10:59:55 · 1491 阅读 · 0 评论 -
Effective Use of Word Order for Text Categorization with Convolutional Neural Networks
卷积神经网络有效地利用词序进行文本分类(2015年)code:https://github.com/tensorflow/models/tree/master/research/sentiment_analysis(但是这份代码只是简单实现了parallel CNN,并没有实现seqCNN和bowCNN,聊胜于无)摘要卷积神经网络(CNN)是可以利用数据的内部结构(例如图像数据的2D结...翻译 2019-12-11 10:50:11 · 378 阅读 · 1 评论