
Competition
程序员椰子橙
这个作者很懒,什么都没留下…
展开
-
daguansummary
1.参赛指导 1.1 背景 这个比赛是文本分类比赛,比传统的短文本(300词)分类难,现在是长文本(3000词)分类。 1.2 监督学习进行分类的基本过程 (假设有一个学习模型f供你使用) 原始数据(一段原始文本)→数据预处理(处理后的文本)→特征工程(Features)→输入(模型f)→输出(类别) 数据预处理:表情、符号会影响后续的处理,所以去掉; 特征工程:生成向量=feature;(是机器...原创 2020-03-16 14:56:04 · 147 阅读 · 0 评论 -
文本分类竞赛-数据初识
数据初识下载数据,读取数据,观察数据将训练集拆分为训练集和验证集 下载数据,读取数据,观察数据 数据解压下来放在new_data文件夹中,分为train_set和test_set两个文件 import numpy as np import pandas as pd training = pd.read_csv("../new_data/train_set.csv") print(training...原创 2019-04-05 21:48:42 · 612 阅读 · 0 评论 -
使用LR和SVM对文本数据进行分类
使用LR和SVM对文本数据进行分类 import numpy as np import pandas as pd training = pd.read_csv("D:/ML/competition/daguan/new_data/train_set.csv") # print(training.head()) # # print(training.shape) # print(training....原创 2019-04-11 03:38:55 · 653 阅读 · 0 评论 -
达观杯参数调优
达观杯参数调优网格搜索法调参模型融合 网格搜索法调参 模型融合原创 2019-04-16 14:49:08 · 158 阅读 · 0 评论 -
word2vec词向量原理
word2vec词向量原理原创 2019-04-10 01:03:15 · 1287 阅读 · 0 评论 -
达观杯linghtgbm
import lightgbm as LGB """ 训练LGB分类器 """ print("训练LGB分类器") params = { 'boosting': 'gbdt', 'application': 'multiclassova', 'num_class': 19, 'learning_rate': 0.1, 'num_leaves': 31, ...原创 2019-04-13 23:19:19 · 159 阅读 · 0 评论