统计机器翻译与语言模型实践

1、获取宾州树库中使用的词性标签描述,并标注以下句子:(a) Time flies like an arrow. (b) Joe reads the book by the famous author to his sister. (c) It is getting wet because it is raining. (d) Jane likes to go to Hoboken.

宾州树库词性标签描述

词性分类

名词(Nouns)

指代世界中的抽象或真实物体,分为:
- 普通名词 :如 house/NN (单数)、 houses/NNS (复数)
- 专有名词 :如 Britain/NP (单数)、 Americas/NPS (复数)

动词(Verbs)

指代动作,有多种形式:
- go/VB (原形)
- went/VBD (过去式)
- 情态动词如 can/MD

形容词(Adjectives)

描述名词的属性,有:
- 原级
- 比较级
- 最高级

副词(Adverbs)

描述动词或形容词的属性,有:
- 原级
- 比较级
- 最高级

限定词(Determiners)

修饰或替代名词,如 the/DT

代词(Pronouns)

指代之前提到的名词

介词(Prepositions)

位于名词短语或从句前,表明其在句子中的作用

并列连词(Coordinating conjunctions)

and/CC

数词(Numbers)

17/CD

所有格标记(Possessive marker)

Joe ’s/POS

列表项标记(List item markers)

A./LS

符号(Symbols)

$/SYM

外来词(Foreign words)

de/FW facto/FW

感叹词(Interjections)

oh/UH

句子标注示例

(a) Time/NN flies/VBZ like/IN an/DT arrow/NN.

(b) Joe/NNP reads/VBZ the/DT book/NN by/IN the/DT famous/JJ author/NN to/TO his/PP$ sister/NN.

(c) It/PP is/VBZ getting/VBG wet/JJ because/IN it/PP is/VBZ raining/VBG.

(d) Jane/NNP likes/VBZ to/TO go/VB to/TO Hoboken/NNP.

2、如果我们掷骰子10次,可能得到的结果是4、2、6、6、2、1、4、3、6、5。(a) 估计这个样本的均值和方差。(b) 假设是均匀分布,掷一次骰子的期望和方差是多少?

(a) 均值:先计算样本总和,
$$ 4 + 2 + 6 + 6 + 2 + 1 + 4 + 3 + 6 + 5 = 39 $$
均值 =
$$ 39 \div 10 = 3.9 $$

方差:先计算每个数与均值差值的平方和,
$$
(4 - 3.9)^2 + (2 - 3.9)^2 + (6 - 3.9)^2 + (6 - 3.9)^2 + (2 - 3.9)^2 + (1 - 3.9)^2 + (4 - 3.9)^2 + (3 - 3.9)^2 + (6 - 3.9)^2 + (5 - 3.9)^2
$$
$$
= 0.01 + 3.61 + 4.41 + 4.41 + 3.61 + 8.41 + 0.01 + 0.81 + 4.41 + 1.21 = 30.9
$$
方差 =
$$ 30.9 \div 10 = 3.09 $$

(b) 对于均匀分布的骰子,期望:
因为骰子每个面出现概率为 $ \frac{1}{6} $,取值为 1 - 6,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值