前言
场景
-
根据关键词来判断一个标题属于什么类型的文章
例如
-
《小米雷军用苹果被吐槽,官方回应:不用就是不关心产品》标题里出现
小米和
苹果,则大概率认为该文章的主题是手机,而此处就是要用
算法找出【小米、苹果】这类词及其对应的主题
常用方法
-
基于统计、监督分类模型(贝叶斯…)、半监督、无监督模型(词向量…)
代码+语料+结果
-
https://github.com/AryeYellow/NLP/tree/master/classification/word_clf
基于统计
单标签多分类
from collections import Counter
from jieba impo