NLP:N-Gram(gram窗口分段再统计)基于概率统计语言模型的简介(包括马尔可夫假设概述)、案例应用之详细攻略
目录
1、N-Gram(窗口分段再统计)的概述—基于概率统计的语言模型:马尔科夫假设,文本稀疏性/不能长期记忆/泛化能力差/效率高/仍是基础主流
2、N-gram模型的数据稀疏问题导致零概率—采用三种平滑技术解决
2.1、N-Gram模型数学推导——两个要点:使用N-1阶马尔可夫假设简化后验概率p、利用B展开并使用MaxLE计数法计算后验概率 )
2.2、N-Gram案例之二元语言模型判断句子是否合理:【语料库】→【计数分布】→【频率分布】→根据【模型公式】依次计算两个句子的概率
第三步,根据【模型公式】通过依次计算两个句子的概率来判断哪一个句子更合理