第三方库
pandas
sklearn
数据集
来自于达观杯
训练:train.txt
测试:test.txt
概述
TF-IDF 模型提取特征值
建立逻辑回归模型
代码
# _*_ coding:utf- _*_
# 简单文本分类实现
import time
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
print("start......")
time_start=time.time()
# ()加载数据 - 利用pandas读取cvs中数据
df_train = pd.read_csv("D:/train.txt")
df_test=pd.read_csv("D:/test.txt")
# [1.1]数据处理 - 根据个人对算据的分析
# 本次实验 - 删除'article','id'列
df_train.drop(columns=['article','id'],inplace=True)
df_test.drop(columns=['article'],inplace=True)
# ()特征提取
"""
特征是什么:选取一些“重要元