python借助sklearn库对视频自动分类

任务背景

存在一堆视频,每个视频有多个标签tag,如预告、电影、加勒比海盗、ted之类,然后需要根据tag对视频进行自动分类。(有一些历史数据作为测试和训练集)。 这个模型可以拓展成文章分类,只需要把tag改为根据词频统计的词组就行了。

选用方案
  由于以前用过sklearn,所以直接用sklearn作为分类工具。用法很简单,定义一个由特征提取和分类器组合成的Pipeline,然后训练训练数据,测试正确率,最后拿模型去预测目标数据即可。

Pipeline

SVC_pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(min_df=3,max_df=0.9,ngram_range=(1,2))),
    ('clf', OneVsRestClassifier(LinearSVC(), n_jobs=1)),
])

参考代码

# -*- coding: utf-8 -*-
"""
File Name:     demo
Description :
Author :       meng_zhihao
mail :       312141830@qq.com
date:          2020/3/17
"""
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import average_precision_score
from sklearn.metrics import recall_score

from ast import literal_eval
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer

from scipy import sparse as sp_sparse
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.multiclass import OneVsRestClassifier
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值