达观杯baseline

本文介绍了一种基于TF-IDF特征抽取与SVM分类器的简单baseline方法,用于文本分类任务。通过使用n-gram范围、平滑IDF、子线性TF等参数优化,该baseline在达观杯竞赛中达到了0.77788的准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

达观杯baseline

简单baseline

import pandas as pd, numpy as np
from sklearn.feature_extraction.text import  TfidfVectorizer
from sklearn import svm

column = "word_seg"
train = pd.read_csv('train_set.csv')
test = pd.read_csv('test_set.csv')
test_id = test["id"].copy()
vec = TfidfVectorizer(ngram_range=(1,2),min_df=3, max_df=0.9,use_idf=1,smooth_idf=1, sublinear_tf=1)
train_term_doc = vec.fit_transform(train[column])
test_term_doc = vec.transform(test[column])
fid=open('baseline.csv','w')

y=train["class"]
lin_clf = svm.LinearSVC()
lin_clf.fit(train_term_doc,y)
preds = lin_clf.predict(test_term_doc)
fid.write("id,class"+"\n")
for item in enmurate(preds):
    fid0.write(str(i)+","+str(item)+"\n")
fid.close()

score: 0.77788

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值