数据竞赛达观杯
orient928
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据竞赛达观杯(1)
写在前面:由于个人原因导致昨晚没有按时交作业,感谢管理员的不请之恩,之后一定按时完成,已此为记! 文章目录一.读取数据二.将训练集拆分为训练集和验证集 一.读取数据 import numpy as np import pandas as pd training = pd.read_csv("../new_data/train_set.csv") print(training.head()) ...原创 2019-04-06 08:32:21 · 340 阅读 · 0 评论 -
数据竞赛达观杯(2)——TF-IDF
文章目录一. TF-IDF1.1 定义1.2 算法步骤二. 算法实现2.1 直接用 TfidfVectorizer 完成向量化与TF-IDF预处理2.2 使用CountVectorizer类向量化之后,再调用TfidfTransformer类进行预处理。 一. TF-IDF 1.1 定义 TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-...原创 2019-04-07 21:34:11 · 273 阅读 · 0 评论 -
数据竞赛达观杯(4)——LR和SVM
写在前面: 逻辑回归我之前专门写过一篇博客,所以这里直接放链接了,SVM内容还挺多的,这里毕竟是关于实战的博客,不是很适合大幅内容来描述算法原理,所以这里就大概的描述一下SVM的原理是什么,之后会专门写一篇博客来介绍SVM,所以这里就请助教见谅了! 文章目录一. 逻辑回归(LR)二. 支持向量机(SVM)三. 实战3.1 LR模型3.2 SVM 模型 一. 逻辑回归(LR) 这部分内容我之前上初级...原创 2019-04-11 21:45:43 · 305 阅读 · 0 评论 -
数据竞赛达观杯(6)——模型融合
文章目录一. 网格搜索(Grid Search)1. 概述2.弊端二. 交叉验证三. 模型融合 一. 网格搜索(Grid Search) 1. 概述 网格搜索是一种调参手段,是一种穷举搜索,在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。通俗的来说就是把所有参数组合的可能性都试一遍,然后找到性能最好的参数组合。 2.弊端 耗时...原创 2019-04-16 11:16:56 · 370 阅读 · 0 评论 -
数据竞赛达观杯(3)——word2vec
文章目录一. word2vec原理概述1.CBOW(Continuous Bag-of-Word Model)2.skip-gram二. Python实现1. Word2vec( )参数详解2.代码详解 一. word2vec原理概述 在自然语言处理的任务中,无论哪种算法都需要将文本形态的词转换成为向量形式的词向量(word embedding)。良好的词向量可以达到语义相近的词在词向量空间里聚...原创 2019-04-09 21:14:51 · 434 阅读 · 0 评论 -
数据竞赛达观杯(5)——LightGBM
文章目录一. LightGBM模型1.GBDT存在的几个问题1.1 如何减少数据量1.2 如何减少特征1.3 关于稀疏的数据2. 引入LightGBM2.1 优点2.2 特点二. lightGBM调参三. lightGBM模型实践 一. LightGBM模型 1.GBDT存在的几个问题 1.1 如何减少数据量 常用的减少训练数据量的方式是down sample。例如权重小于阈值的数据会被过滤掉,...原创 2019-04-13 22:05:31 · 377 阅读 · 0 评论
分享