
NLP
文章平均质量分 92
Musheng Wang
这个作者很懒,什么都没留下…
展开
-
AI_Challenger_sentiment_analysis_4th_基于序列生成的方法
本文整理自AI Challenger 2018 第4名PPT分享—细粒度情感分析赛道,仅作个人笔记使用。总体方案设计Idea对问题进行分析可得到以下基本关系:文本序列输入20个粒度,每个粒度有4个类粒度之间有相关性细粒度之间的相关性,如dish_taste与dish_recommendation,price_level与price_cost_effective粗粒度之间的相关...原创 2019-02-18 14:39:01 · 522 阅读 · 2 评论 -
AI_challenger_sentiment_analysis_2rd_基于N-BiSRU的分类方法
这篇文章整理自新闻纪实 | AI Challenger2018情感分析赛道亚军PPT分享,仅作个人笔记使用。1.问题建模采用多任务学习主要是考虑了时间和空间上的效率;除此之外通过特征共享可以降低过拟合风险。分别训练20个分类模型可能能得到更好的模型,并且模型建立的过程会相对简洁一些。2.模型基本架构总体结构共享层包含了词表示层和N-BiSRU;而独占层包含了特征抽取层和分类层。如果不使...原创 2019-02-20 11:41:06 · 1063 阅读 · 3 评论 -
AI_chanlleger_Sentiment_analysis_16th_基于elmo的解决方案
本文思路来源于fsauor2018,仅作为个人笔记。数据预处理作者将原始数据处理成了4个文件,但是这部分代码并没有提供。train.json / validation.json / testa.json文件的每一行格式如下:{"id": "0", "content": "吼吼吼 , 萌 死 人 的 棒棒糖 , 中 了 大众 点评 的 霸王餐 , 太 可爱 了 。 一直原创 2019-02-18 14:39:38 · 242 阅读 · 0 评论 -
Al_challenger_2018_sentiment_analysis_top17_基于Aspect Level思路的解决方案
本文思路来源于基于Aspect Level思路的解决方案.这篇文章的主要目的是记录复现过程中的心得和体会。训练词向量预处理将繁体字转换为简体字,使用了zhconv去掉停用词中文分词,使用了jieba分词去除了标点符号(训练词向量时)训练词向量word2vec模型词向量模型参数如下model = Word2Vec(sentences, sg=1, size=100, c...原创 2019-01-10 10:52:02 · 1657 阅读 · 8 评论 -
使用Tfidf和TruncatedSVD做文本主题分析
Tfidf基本概念所谓Tfidf,可以分为TF(词频, Term Frequency)和IDF(反文档频率, Inverse Document Frequency),然后二者相乘即可得到Tfidf.通俗的说,TF就是某个关键字出现的频率,DF是一个词在整个文库字典中出现的频率,IDF由DF进行运算得来.TF的计算TfidfVectorizer的使用使用TfidfVectorizer可以把...原创 2019-01-09 17:55:35 · 5226 阅读 · 0 评论