Python监督学习【词分类】算法

本文探讨Python在监督学习中的应用,特别是针对词分类任务。涵盖了单标签和多标签多分类的统计方法,以及机器学习算法的应用。文章还提供了全部分析结果的比较,并延伸讨论了半监督词分类算法,旨在通过这种方法找出更多的情感词如‘新鲜’、‘甜’、‘坏’、‘烂’。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

场景
根据关键词来判断一个标题属于什么类型的文章
例如
《小米雷军用苹果被吐槽,官方回应:不用就是不关心产品》标题里出现 小米苹果,则大概率认为该文章的主题是手机,而此处就是要用 算法找出【小米、苹果】这类词及其对应的主题
常用方法
基于统计、监督分类模型(贝叶斯…)、半监督、无监督模型(词向量…)
代码+语料+结果
https://github.com/AryeYellow/NLP/tree/master/classification/word_clf

基于统计

单标签多分类

from collections import Counter
from jieba impo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小基基o_O

您的鼓励是我创作的巨大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值