【python自然语言处理】读书笔记

这篇博客是《Python自然语言处理》一书的读书笔记,涵盖内容包括:安装nltk和处理运行时错误,语料库的使用,文本加工技巧如爬虫和字符串处理,编程概念如生成器和lambda表达式,分类和标注词汇,以及文本分类和信息提取方法。讨论了词性分类、正则表达式标注和n-gram等,并涉及了监督分类和决策树模型。

《python自然语言处理》读书笔记

参考书目:《python自然语言处理》
使用的工具:python, NLTK

Ch1

  • 安装nltkpython3 -m pip install nltk
  • 错误:运行时错误、语法错误
  • bigram

Ch2 语料

  • 各种语料库
  • 词汇列表
  • wordnet是基于语义的库。比如用树状结构表现同义词

Ch3 加工原文本

  • 爬虫:访问网络资源
from urllib import urlopen
raw = urlopen(url = 'http://www.gutenberg.org/files/2554/2554.txt', proxies = {
   
   'http': 'http://www.someproxy.com:3128'}).read()
  • BeautifulSoup处理html
  • feedparser 处理RSS
  • 字符串的处理
  • 编码,处理unicode,用四位十六进制数\uXXXX表示
  • 在这里插入图片描述

Ch4 编程

  • [] 产生器表达式
  • 变量范围:LGB 规则:本地 (l ocal),全局(gl obal),然后内置(bui lt-in)。
  • docstring
  • lambda表达式
  • for … yield
  • 调试import pdb
  • 算法:迭代、动态规划、。例子,梵文音节组成:
    • virahanka2()所采取的办法是解决较大问题前先解决较小的问题。因此,这 被称为自下而上的方法进行动态规划。
    • 第三个方法中:
    1. 采用自上而下的方法进行动态规划可 避免计算的浪费。
    1. m 在整个递归过程中,是同一个静态字典,所以不用作为参数传递(?)。
# 迭代
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值