【xgboost】使用xgboost训练一个简单模型

最新推荐文章于 2025-03-04 14:00:00 发布

原创

最新推荐文章于 2025-03-04 14:00:00 发布 · 513 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习

本文介绍了如何使用Python库pandas和XGBoost对CSV文件中的数据进行预处理，包括处理双引号、转换数据类型，然后进行模型训练，使用GridSearchCV优化参数并评估性能指标如AUC和log_loss。

使用pandas读取特征数据，并处理数据中的双引号
使用xgboost训练一版模型
xgboost==1.6.2

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import xgboost as xgb
import logging
import csv
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import roc_auc_score, accuracy_score, log_loss

model_version = "v101"
root_path = "/home/.../model/xgboost_tool"

class DataProcess(object):
    def __init__(self, train_path, test_path):
        self.train_data = pd.read_csv(train_path, header=None, sep="\t", quoting=csv.QUOTE_MINIMAL, escapechar='\\')
        self.train_data.replace('""', '', inplace=</