HanLP-朴素贝叶斯分类预测缺陷

最新推荐文章于 2022-03-05 15:49:37 发布

adnb34g

最新推荐文章于 2022-03-05 15:49:37 发布

阅读量610

点赞数

分类专栏：自然语言处理文章标签： hanlp 朴素贝叶斯分类

自然语言处理专栏收录该内容

107 篇文章

订阅专栏

本文详细解析了HanLP中的朴素贝叶斯分类器实现原理，特别是针对使用对数相加而非直接概率相乘的方法来避免溢出问题进行了探讨，并通过具体代码示例解释了如何计算预测概率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章整理自 baiziyu 的知乎专栏，感兴趣的朋友可以去关注下这位大神的专栏，很多关于自然语言处理的文章写的很不错。昨天看到他的分享的两篇关于朴素贝叶斯分类预测的文章，整理了一下分享给给大家，文章已做部分修改！

朴素贝叶斯分类时，最好取对数变相乘为相加，防止预测结果溢出。可能出现的badcase就是明明训练语料X类目下没有词语t，而系统就将文本预测为X类目。解决方法就时改相乘为取对数相加。HanLP的朴素贝叶斯分类计算没有用对数相加的方法，而是直接用的概率相乘，很有可能溢出。

对上述内容做一些更正，HanLP的朴素贝叶斯是按照概率取对数相加做的。

看一下下边的代码

@Override

public double[] categorize(Document document) throws IllegalArgumentException, IllegalStateException

{

Integer category;

Integer feature;

Integer occurrences;

Double logprob;

double[] predictionScores = new double[model.catalog.length];

for (Map.Entry<Integer, Double> entry1 : model.logPriors.entrySet())

{

category = entry1.getKey();

logprob = entry1.getValue(); //用类目的对数似然初始化概率

//对文档中的每个特征

for (Map.Entry<Integer, int[]> entry2 : document.tfMap.entrySet())

{

feature = entry2.getKey();

if (!model.logLikelihoods.containsKey(feature))

{

continue; //如果在模型中找不到就跳过了

}

occurrences = entry2.getValue()[0]; //获取其在文档中的频次

logprob += occurrences * model.logLikelihoods.get(feature).get(category); //将对数似然乘上频次

}

predictionScores[category] = logprob;

}

if (configProbabilityEnabled) MathUtility.normalizeExp(predictionScores);

return predictionScores;

}

这么看来，之前遇到的下边的这个badcase就还要再分析

[1] 化验指标一变化患者就六神无主，看医生怎么讲解

核心词：患者看医生

这里“患者”和“看医生”两个词都没在“艺术”类训练语料中出现，但是预测概率最大的反倒是“艺术”。

由于用PyHanLP没法看到预测概率的计算过程，所以还是把Python的分类预测代码改为Java代码调式看一下。今天移植了预处理，资源加载，人工干预部分的代码，明天把剩余预测部分移植为Java再来看这个badcase。这就是朴素贝叶斯的优势，分析起来非常清晰容易。不过从PyHanLP的预测输出概率值来看，不太像是取了对数相加得到的，因为都是0-1之间的数值，这一看就是概率值。

原文链接：https://zhuanlan.zhihu.com/p/72733641

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。