统计自然语言处理:从理论到实践
一、统计自然语言处理学习基础与结构
(一)学习基础要求
学习统计自然语言处理需要一定的基础。学生应具备编程经验,熟悉形式语言和符号解析方法。同时,要掌握集合论、对数、向量和矩阵、求和以及积分等基本数学概念,这些知识相当于高中教育水平即可。此外,学生可能已经学习过符号自然语言处理方法,但不要求有深厚的背景知识。在概率、统计和语言学方向,虽然会简要总结必要的背景知识,但学生可能仍需学习补充材料,以构建足够的基础。
(二)内容结构划分
内容分为四个部分:
1. 预备知识 :奠定数学和语言学基础,其中介绍的概念和技术在后续内容中会被多次引用。
2. 词汇 :涵盖以词汇为中心的统计自然语言处理工作。包含搭配、n - 元模型、词义消歧和词汇获取四章,从简单到复杂的语言现象逐步展开,各章也可独立阅读。
3. 语法 :包括马尔可夫模型、标注、概率上下文无关文法和概率解析四章,各章内容相互关联,最好按顺序学习。不过,标注章节可在偶尔参考马尔可夫模型章节的情况下单独阅读。
4. 应用与技术 :包含统计对齐与机器翻译、聚类、信息检索和文本分类四个应用和技术主题。各章可根据兴趣和时间分别学习,章节间的依赖关系会有适当标注。
(三)学习与教学建议
- 预备知识学习 :不建议在开始时仔细学习预备知识的所有内容。通常在课程的前 6 小时回顾最关键的部分,包括基础概率、信息
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



