
数据分析
Mr._Hou
这个作者很懒,什么都没留下…
展开
-
数据竞赛-“达观杯”文本智能处理-Day1
数据竞赛-“达观杯”文本智能处理-Day11.竞赛简介a) 任务b) 数据c) 评分标准2.读取数据,观察数据3.训练集数据划分4.对数据以及赛题的理解和发现1.竞赛简介大赛链接点击 此处a) 任务建立模型通过长文本数据正文(article),预测文本对应的类别(class)b) 数据链接: https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw...原创 2019-04-05 21:43:28 · 280 阅读 · 0 评论 -
数据竞赛-“达观杯”文本智能处理-Day2:TF-IDF实践
数据竞赛-“达观杯”文本智能处理-Day2:TF-IDF实践1.原理2.tf-idf的理论依据及不足3.实践tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加...原创 2019-04-07 21:14:26 · 720 阅读 · 0 评论 -
数据竞赛-“达观杯”文本智能处理-Day4:LR+SVM学习及实践
数据竞赛-“达观杯”文本智能处理-Day4:LR+SVM学习及实践 一. 理论学习1.逻辑回归(LR)2.支持向量机(SVM)a) 简介b) 算法c) SVM的特点和不足二. 实践使用下面模型对数据进行分类(包括:模型构建&调参&性能评估),并截图F1评分的结果1)逻辑回归(LR)模型,学习理论并用Task2的特征实践2)支持向量机(SVM) 模型,学习理论并用Task2的特...原创 2019-04-11 21:38:06 · 243 阅读 · 0 评论 -
数据竞赛-“达观杯”文本智能处理-Day6:模型优化
数据竞赛-“达观杯”文本智能处理-Day6:模型优化1.网格搜索法(Grid Search)2.交叉验证3.模型调参4.模型融合a) Votingb) Averagingc) Baggingd) Boostinge) Stacking【Task4 模型优化】:1)进一步通过网格搜索法对3个模型进行调优(用5000条数据,调参时采用五折交叉验证的方式),并进行模型评估,展示代码的运行结果。(可以...转载 2019-04-16 11:27:32 · 235 阅读 · 0 评论 -
数据竞赛-“达观杯”文本智能处理-Day3:word2vec实践
数据竞赛-“达观杯”文本智能处理-Day3:word2vec实践 1.NLP词的表示方法类型词的独热表示one-hot词的分布式表示 distributed representation2.word2vec是什么3.基于神经网络的分布表示4.训练优化5.实践【Task2.2】学习word2vec词向量原理并实践,用来表示文本参考资料1)CS224:https://www.bilibili....原创 2019-04-09 21:48:36 · 369 阅读 · 0 评论 -
数据竞赛-“达观杯”文本智能处理-Day5:LightGBM模型
数据竞赛-“达观杯”文本智能处理-Day5:LightGBM模型1.理论学习2.实践【Task3.2】LightGBM模型构建LightGBM的模型(包括:模型构建&调参&性能评估),学习理论并用Task2的特征实践要求:理论+代码+截图F1评分的结果参考:https://github.com/Heitao5200/DGB/blob/master/model/model_c...原创 2019-04-13 21:05:23 · 477 阅读 · 0 评论