[笔记] Introduction to Shallow Language Processing

本文介绍了搜索引擎中词袋模型的应用及其特点,并探讨了语言独立属性,包括词频分布、Heaps定律及Zipf定律等内容。
部署运行你感兴趣的模型镜像

Bag of Words

解释:

搜素引擎用词袋模型这种shallow form理解语言。词袋模型的特征有:

1)忽略word order;

2)忽略stopwords(像the,a这种频率高又没什么实际意义的词);

3)把words变成terms,将root相同的words变成一个term,比如cats->cat

优缺点:

pros:简单;有效

cons:有损的,无法从词袋还原到原文档;忽略了词句篇的语义信息


Language-independent properties

def: 与词汇特征、词形、语法等无关的特性。(? not sure)

example

以华尔街日报为例:


term frequency的分布非常skewed:频繁出现的terms很少,很多都是罕见的terms。

这个分布的样式与人类使用语言的习惯有关,不同的语言和corpus中,曲线的斜率和具体词汇的排名和频率会发生变化。

Heaps' Law

描述vocabulary大小(total number of terms)和总词数(total number of word occurrences)的关系。


根据Heapf‘s Law,vocabulary的大小会一直随着word occurrences总数的增长而增长,虽然越来越慢,但不会饱和。

Zipf’s Law

描述collection term frequency和term‘s rank的关系。


ctf: collection term frequency -- how often term t occurs in C

N: total word occurrences in corpus C

A: constant, usually 0.1 for English

R: rank of term t

不需要知道collection里含有多少文章,文章的具体内容就能得到ctf和rank的关系。

由Zipf‘s Law可知:

1)few term频繁出现:

rank 1的term占总word occurrence的10%;

排名前5的terms占有23%的occurrences;

排名前100的terms占有52%的occurrences

2)大多数terms非常罕见:

50%的terms出现1次;

91%的terms的occurrence小于10次

Heapf's Law 和Zipf's Law的作用

1)帮助系统设计者预计重要data structure(term dictionary,inverted list 的大小的分布情况)需要占用的内存大小。这些预计无需了解corpus中具体的内容和语言,非常的方便。

2)根据这些统计特性,帮助设计者更好得设计data structure(比如把doc-term矩阵换成了inverted list)。

3)不同inverted lists之间,大小变化很大:

rank 1的term的inverted list含有10%的总term occurrences;

vocabulary中,50%的term的inverted list只有一个occurrence;

83%的term的inverted list记录的出现次数小于5;

所以软件应该能hold住对不同大小的inverted list的处理。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值