
数据竞赛
小鬼漫步
这个作者很懒,什么都没留下…
展开
-
数据竞赛——0
“达观杯”文本智能处理挑战赛第一次 数据竞赛获取数据读取数据数据分割具体实现第一次 数据竞赛这是我在学习完Python和机器学习的基本知识后的第一次实践,更是一次成长。获取数据在DataCastle中注册,并且报名“达观杯”文本智能处理挑战赛(已经结束,但是任然可以使用),下载比赛数据。读取数据数据分为两部分训练数据和测试数据都是CSV格式的,首先通过利用Excel打开数据来进行观察数...原创 2019-03-01 21:45:37 · 651 阅读 · 0 评论 -
数据竞赛——1
“达观杯”文本智能处理挑战赛之二TF-IDFword2vecTF-IDFTF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。(百度百科)TF(Term Frequency)词频,某个词在文章中出现的次数或频率,如果某篇文章中的某个词出现多次,那这个词可能是比较重要的词,当然,停用词不包括在这里。IDF(inverse document frequ...原创 2019-03-05 19:25:27 · 393 阅读 · 0 评论 -
数据竞赛——3
“达观杯”文本智能处理挑战赛之三LightGBM:Light Gradient Boosting Machine,是一个实现GBDT (Gradient Boosting Decision Tree)算法的框架,支持高效率的并行训练,并且具有以下优点:● 更快的训练速度● 更低的内存消耗● 更好的准确率● 分布式支持,可以快速处理海量数据LightGBM的教程,参见LightGBM ...原创 2019-03-09 21:26:10 · 307 阅读 · 0 评论 -
数据竞赛——2
“达观杯”文本智能处理挑战赛之二逻辑回归(LR)支持向量机(SVM)逻辑回归(LR)逻辑回归:Logistic regression,名义上带有“回归”字样,可能会被以为是预测方法,其实质却是一种常用的分类模型,主要被用于二分类问题,它将特征空间映射成一种可能性,在LR中,y是一个定性变量{0,1},LR方法主要用于研究某些事发生的概率。它足够简单却又足够有效,但是,它对数据和场景的适应能力有...原创 2019-03-07 21:32:40 · 258 阅读 · 0 评论 -
数据竞赛——4
RCNNRCNN:Region-based Convolutional Neural Networks,是将CNN方法引入目标检测领域,很大程度上提高了目标检测效果。RCNN最初被发表于 2014的CVPR 。此处献上RCNN原文,以便于学习。RCNN算法分为4个步骤候选区域生成: 一张图像生成1K~2K个候选区域 (采用Selective Search 方法)特征提取: 对每个候选区域...原创 2019-03-11 21:55:33 · 307 阅读 · 0 评论 -
数据竞赛——5
StackingStacking:表示学习指的是模型从原始数据中自动抽取有效特征的过程。Stacking先从初始数据集训练出初级学习器,将初级学习器的输出当作特征构成新数据集,利用新数据集再训练次级学习器(meta-learner)。Stacking的框架结构与运行过程如下:假设是五折的stacking,我们有一个train数据集和一个test数据集,那么一个基本的stacking框架会进...原创 2019-03-12 23:28:46 · 296 阅读 · 0 评论