参考书籍
统计自然语言处理,清华大学,李宗庆著
分词软件
清华、复旦、stanford
方法
- 基于规则
- 基于统计
语料库+模型(贝叶斯、最大条件熵模型、隐马可夫、CRF、SVM)
汉语自动分词基本软件
- 正向/反向/双向
- 最少分词法(最短路径法)
- 基于语言模型的分词(语言模型工具SRLM)
- 基于HMM的分词方法
- 字构词的分词方法
CRF在模型上优于HMM和SVM
未登录词的识别
- 命名实体识别
- 中文姓名
老师要求: 编程能力+算法实现能力
引用块内容
统计自然语言处理,清华大学,李宗庆著
清华、复旦、stanford
CRF在模型上优于HMM和SVM
老师要求: 编程能力+算法实现能力
引用块内容