《python自然语言处理》读书笔记
参考书目:《python自然语言处理》
使用的工具:python, NLTK
Ch1
- 安装nltk
python3 -m pip install nltk - 错误:运行时错误、语法错误
- bigram
Ch2 语料
- 各种语料库
- 词汇列表
- wordnet是基于语义的库。比如用树状结构表现同义词
Ch3 加工原文本
- 爬虫:访问网络资源
from urllib import urlopen
raw = urlopen(url = 'http://www.gutenberg.org/files/2554/2554.txt', proxies = {
'http': 'http://www.someproxy.com:3128'}).read()
- BeautifulSoup处理html
- feedparser 处理RSS
- 字符串的处理
- 编码,处理unicode,用四位十六进制数
\uXXXX表示 
Ch4 编程
- [] 产生器表达式
- 变量范围:LGB 规则:本地 (l ocal),全局(gl obal),然后内置(bui lt-in)。
- docstring
- lambda表达式
- for … yield
- 调试
import pdb - 算法:迭代、动态规划、。例子,梵文音节组成:
-
- virahanka2()所采取的办法是解决较大问题前先解决较小的问题。因此,这 被称为自下而上的方法进行动态规划。
-
- 第三个方法中:
-
- 采用自上而下的方法进行动态规划可 避免计算的浪费。
-
- m 在整个递归过程中,是同一个静态字典,所以不用作为参数传递(?)。
# 迭代

这篇博客是《Python自然语言处理》一书的读书笔记,涵盖内容包括:安装nltk和处理运行时错误,语料库的使用,文本加工技巧如爬虫和字符串处理,编程概念如生成器和lambda表达式,分类和标注词汇,以及文本分类和信息提取方法。讨论了词性分类、正则表达式标注和n-gram等,并涉及了监督分类和决策树模型。
最低0.47元/天 解锁文章
3159

被折叠的 条评论
为什么被折叠?



