16、信息论与机器学习中的主题

信息论与机器学习中的主题

在自然语言处理的众多领域中,机器学习技术正发挥着至关重要的作用。在实际应用里,我们常常需要判定对象或观测值的类别,比如确定文本的语言种类,或是判断单词的词性。接下来,我们将探讨如何从语料库中构建数学模型,从而实现自动检测段落是法语还是英语,以及辨别单词是名词还是动词。

1. 编码与信息论

信息论是编码设计的基础。Claude Shannon 在 1948 年发表的开创性文章开启了这一领域,他定义了信息的度量方式——熵。下面我们将介绍信息论中的几个重要概念:熵、最优编码、交叉熵和困惑度。熵是衡量符号序列平均信息含量的通用指标,我们会研究它如何助力设计高效编码。

1.1 熵

信息论把文本视为符号序列。假设 $x_1, x_2, \cdots, x_N$ 是代表字符的 $N$ 个离散符号集,单个符号的信息含量定义为:
$I(x_i) = -\log_2 P(x_i) = \log_2 \frac{1}{P(x_i)}$,单位是比特。

当所有符号的概率相等时,即 $P(x_1) = P(x_2) = \cdots = P(x_N) = \frac{1}{N}$,此时这些符号被称为等概率符号。那么 $x_i$ 的信息含量为 $I(x_i) = \log_2 N$。

信息含量对应着对符号集进行编码所需的比特数。例如,假设字母表由 26 个无重音的等概率字符和空格组成,其信息含量为 $\log_2 (26 + 1) = 4.75$,这意味着需要 5 比特来进行编码。若再加入 16 个带重音的字符、大写字母、11 个标点符号以及空格,总共需要 $(26 + 16) \times 2 + 12 =

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值