
NLP竞赛
KODGV
这个作者很懒,什么都没留下…
展开
-
Pandas与Numpy收集的代码小技巧
文章目录pandas操作出现进度条:pandas操作出现进度条:用作迭代器用于Pandas的操作import pandas as pdfrom tqdm import tqdmtqdm.pandas()sentences = train["question_text"].progress_apply(lambda x: x.split()).valuesfor sentence...原创 2019-01-17 21:55:35 · 177 阅读 · 0 评论 -
通用代码
记录下一些常用的框架代码,以便后续快速使用文章目录embedding查看覆盖率文本清洗embedding查看覆盖率import pandas as pdfrom tqdm import tqdmtqdm.pandas()import operator from gensim.models import KeyedVectorsnews_path = '../input/embe...原创 2019-01-17 23:05:59 · 529 阅读 · 0 评论 -
NLP竞赛综述
参加了一个竞赛学习小组,要求每天要打卡发布文章。公益性的组织确实不易,自己既然参加了,就不要辜负大佬的期望。先总结一下别人的经验。文章目录[如何到top5%?NLP文本分类和情感分析竞赛总结](https://zhuanlan.zhihu.com/p/54397748)语义粒度与文本长度词向量模型与维度语言模型词向量训练模型trick如何到top5%?NLP文本分类和情感分析竞赛总结就像他...原创 2019-01-16 21:34:44 · 1571 阅读 · 0 评论 -
竞赛中的可视化方式及代码
打比赛中,很头疼的一件事情就是想看看这个和那个的关系,没有快速上手的画图工具代码。这里就记录一下。从kaggle和其他竞赛中获得的一些画图代码。文章目录plotly条形图子图以及n-gram词条形图plt刻画词云plotly条形图适合简单观察变量,以及变量之间的相关关系from plotly import toolsimport plotly.offline as pypy.in...原创 2019-01-16 22:38:23 · 573 阅读 · 0 评论 -
Quora Insincere Questions Classification 文本分类归纳
1st place 解决方案模型结构过复杂的模型不一定有效,这里只是使用了一层LSTM和卷积Embeddings多个embedding模型按权重组合embeding的目标是尽可能地为词典找到对应地向量,所以有以下地操作:1 do not limit the vocab at all2 checking singular and plural of the word3 check...转载 2019-02-20 18:45:14 · 1167 阅读 · 0 评论 -
经验和记录
深度学习:额外记录所有的超参数,不能直接在每个函数内手写超参数。记录下哪些参数对你的最终性能有影响,他们有多重要。原创 2019-02-03 17:19:19 · 235 阅读 · 0 评论