《Natural Language Processing》斯坦福视频学习笔记——2.text processing

本篇涉及到的文本处理,主要包含以下内容:
  • Lemmatization
  • Stemming
  • Porter Stemming Algorithm
  • 判断一个单词是否是句尾单词
  • 判断句尾单词的扩展条件
具体的笔记内容如下:
  • Lemmatization:使单词、句子还原
  • Stemming:使有相同词根的词还原
  • Porter Stemming Algorithm:词根还原算法,可以实现对英文单词进行还原英文单词的词性、词形变化,去掉前缀、后缀等等功能

    [aeiou].*ing$:只有单词中存在aeiou才能删除结尾的ing,如king就不能删,而standing可以删。
    缺陷:如living之类的词,删掉后变成liv,并没有真正意义上的还原
  • 判断一个单词是否是句尾单词:
    (1)之后有大量空白
    (2)后面的标点是?!:
    (3)当之后是一个片段时,之后无如etc等的缩略词。
    决策树形式:


  • 判断句尾单词的扩展条件:
    (1)带.的单词的开头字母大小写、是否数字等
    (2).之后的单词开头字母大小写、是否数字等
    (3)带.的单词长度
    (4)带.的单词在句尾的概率
    (5).之后的单词在句首的概率
总结:
  • 词根还原,简单的做法就是直接删除类别,再进一步就是分析单词本身结构,如是否带元音、删除之后是否要在最后加e等
  • 单词、句子分析,不仅要分析其本身结构,还要考虑上下文特征
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值