
达观杯
key_points
希望以此为起点,每天能进步一点点;
希望能坚持持续记录自己的所见所得;
希望坚持。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
达观杯-特征工程 3--(特征衍生)
在很多时候,当原数据中的特征数量很少,或者特征数量够但是想进一步提升模型的性能。这个时候就需要在原数据特征的基础上衍生新的特征以此来增加特征的数量。 只要方法得当的话,通常情况下,效果会比原来的效果要好一点。 多项式法构造特征 import pickle import time from sklearn.preprocessing import PolynomialFeatures t_star...原创 2018-10-11 10:08:47 · 1179 阅读 · 0 评论 -
达观杯文本分类竞赛 0
#达观杯文本分类比赛# 这部分内容只是先简单试水,起到的大概是baseline的作用。后续再思考从各方面进行改进。 特征工程 使用sklearn库中的CountVectorizer,将原始数据中的文本信息转化成向量。 原始数据中有‘article’和‘Word’两个特征,先选择‘Word’,因为‘Word’是显然的有用,而‘article’的作用暂时未知。 逻辑回归 1.先使用logistics ...原创 2018-10-05 22:10:37 · 665 阅读 · 0 评论 -
达观杯-特征工程 1
特征工程 这里主要是将文本信息转化成向量。分别采用countvectororizer和TfidfVectorizer ,Doc2Vec 和 HashingVectorizer 。 除Doc2vec,其他几种方法都在sklearn包中,具体为sklearn.feature_extraction.text中 使用方法: from sklearn.feature_extraction.text impo...原创 2018-10-07 11:23:34 · 336 阅读 · 0 评论 -
达观杯-特征工程 2--(增加特征及特征选取)
继续进行特征工程。 因为根据原数据,特征信息实际上是偏少的,这个时候需要增加一些特征信息对于训练模型可能会有比较好的效果。 1 增加特征 将Word的长度这一信息作为一个特征提取出来,并保存。 df_train=pd.read_csv('train_set.csv') df_test=pd.read_csv('test_set.csv') ''' 定义得到单词长度的函数 ''' def get_w...原创 2018-10-08 16:59:05 · 579 阅读 · 0 评论 -
达观杯-特征工程4(特征选择)
前面在特征工程2中也有一些关于特征选取的内容,但是没有完整。下面是从模型中进行特征选取的一些知识。 linearSVM """ 用linearsvm从tfidf(word)中挑选特征,并将结果保存到本地 tfidf(article)可做类似处理 """ import time import pickle from sklearn.feature_selection import SelectF...原创 2018-11-09 14:48:51 · 201 阅读 · 0 评论 -
达观杯--特征工程5(特征组合)
前面已经用各种方法对数据集中‘Word’进行了处理,主要是向量化包括countVectorizer等,也有特征降维(特征选择)等工作。接下来将数据集中的article这一属性进行同样的处理之后,将其和Word处理之后的特征进行组合。 1 Word + article 使用tfidf,当然使用其他的向量化方法也是完全可以的。 import pickle import pandas as pd f...原创 2018-11-09 15:22:55 · 277 阅读 · 0 评论 -
达观杯--模型构建(lightgbm)
使用lightgbm作为模型对数据进行训练。 import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import f1_score import time import pickle import lightgbm as lgb...原创 2018-11-09 15:26:35 · 303 阅读 · 0 评论