Sklearn,xgboost机器学习多分类实验

最新推荐文章于 2024-11-21 17:21:09 发布

原创

最新推荐文章于 2024-11-21 17:21:09 发布 · 8.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #sklearn #xgboost #卡方检验 #多分类

本文介绍了一个基于复旦大学中文文本分类语料的多分类实验，利用sklearn和xgboost进行预处理、特征工程和分类。实验包括jieba分词、字典生成、idf计算、TF-IDF、libsvm数据格式生成以及多种分类器（如xgboost）的5折交叉验证。特征工程部分涉及卡方检验。

一. 背景

多分类是一个机器学习的常见任务，本文将基于复旦大学中文文本分类语料，使用sklearn和xgboost来进行多分类实验。

预装软件包：
1. Jieba分词：

环境： linux fedora 23

源码安装https://github.com/fxsjy/jieba, 或者使用pipinstall jieba安装

2. Sklearn：

fedora 下参考：http://www.centoscn.com/image-text/install/2014/0403/2715.html

3.xgboost:

https://github.com/dmlc/xgboost.git

安装好后进入到python-package：pythonsetup.py install

二. LCCT代码和数据集

1.代码

LCCT (Learning to Classify Chinese Text)

git clone https://github.com/jaylenzhang/lcct.git

2.数据集

由复旦大学李荣陆提供。fudan_test.json为测试语料，共9833篇文档；fudan_train.json为训练语料，共9804篇文档，分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。本文将训练和测试数据混合一起进行5折交叉验证。收集工作花费了不少人力和物力，所以请大家在使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）

百度云： http://pan.baidu.com/s/1qYjk0Ni密码：dhs7

下载数据集后，在当前目录下创建data目录，并将文件解压。

数据集类别统计