python朴素贝叶斯的文本分类_基于Python 朴素贝叶斯--文本分类

    该博客介绍如何使用Python的sklearn库中的朴素贝叶斯算法进行文本分类。通过加载和处理文本数据,利用jieba进行中文分词,然后使用TFIDF向量化文本,并训练多项式贝叶斯分类器。最终,计算分类器的准确率,结果显示为0.92。

    摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    基于Python 朴素贝叶斯--文本分类

    # coding: utf-8

    利用jupter book在线运行code。

    步骤:

    准备分类文档内容和分类标签,停用词文档

    利用Jieba(中文)/NTLK(英文)将文档中单词分词

    加载停用词文件,生成TFIDF向量,计算单词的TFIDF,(TF:词频,IDF:逆向文档频率=

    (文档数/(单词出现的文档数+1))

    使用多项式贝叶斯算法生成分类器

    预测结果并计算分类器的准确率

    # 中文文本分类

    import os

    import jieba

    import warnings

    from sklearn.feature_extraction.text import TfidfVectorizer

    from sklearn.naive_bayes import MultinomialNB

    from sklearn import metrics

    def cut_words(file_path):

    """

    对文本进行切词

    :param file_path: txt文本路径

    :return: 用空格分词的字符串

    """

    text_with_spaces = ''

    text=open(file_path, 'r', encoding='gb18030').read()

    textcut = jieba.cut(text)

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值
    程序员都在用的中文IT技术交流社区

    程序员都在用的中文IT技术交流社区

    专业的中文 IT 技术社区,与千万技术人共成长

    专业的中文 IT 技术社区,与千万技术人共成长

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    客服 返回顶部