Python文本分析实战:词袋模型

构建一个包含 6 篇简短新闻文章的小型数据集

文章内容 所属类别
“足球比赛精彩,球员们积极奔跑,现场球迷热情高涨。” 体育
“新歌发布,歌手在舞台上尽情演唱,歌迷欢呼不断。” 娱乐
“新款手机发布,配置超强,功能十分先进。” 科技
“篮球比赛激烈,双方比分交替上升,观众呐喊助威。” 体育
“电影上映,演员演技精湛,剧情扣人心弦。” 娱乐
“电脑软件更新,带来了更多便捷功能。” 科技

代码:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
import numpy as np

# 定义新闻文章内容列表
news_articles = [
    "足球比赛精彩,球员们积极奔跑,现场球迷热情高涨。",
    "新歌发布,歌手在舞台上尽情演唱,歌迷欢呼不断。",
    "新款手机发布,配置超强,功能十分先进。",
    "篮球比赛激烈,双方比分交替上升,观众呐喊助威。",
    "电影上映,演员演技精湛,剧情扣人心弦。",
    "电脑软件更新,带来了更多便捷功能。"
]

# 定义对应的类别标签
categories = np.array(["体育"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值