读冯志伟老师和张宜的对话有感
1.冯志伟老师说在计算机上跑可以用拼音来进行人机交互,因为汉字处理很麻烦。是否汉字的处理和英语的处理相似呢?
冯志伟教授:中国语言学家,研究方向为计算语言学和应用语言学,懂得汉、英、德、法、俄、日等多种语言,多年来一直从事语言学和计算机科学的跨学科研究。 冯老在24EN专栏的网址:
http://www.24en.com/column/fengzhiwei/index_7.htm
2.机器翻译的三个过程:词汇阶段,句法转换阶段,语义阶段是如何对语言文字进行处理的?
3.语义不便于形式表示,那么是如何表示的呢?用First order predicative logic (一阶谓词逻辑,简称FOPC)来解决。即通过计算及分析以后加上语义信息,就可以做出FOPC,来表达一个句子的意思了。
FOPC的功能:a,对一件事情的表示。即这件事情是什么事情,参与者是什么。
b,对时间上的表示。比如时态(tense)是现在,过去,,将来等。
c,人的信念表示。比如”我喜欢“,”我认为“等等。
对这方面的数学研究做的比较差。在这方面的逻辑叫模态逻辑,它现在的研究成果不足以表达语言当中跟例句有关的语言现象。
美国从另外一个角度提出了另外一种逻辑,叫内涵逻辑,就是想办法把一个句子分析完以后通过内含逻辑的办法把它变成一个内含逻辑分析的表达式。比如Chomsy的短语分析就是用树来表示的,然后把树通过内含逻辑方法把它变成一个内含逻辑分析的表达式。
目前国际上比较常用的解决自然语言的方法有两种,一种是基于统计学的方法(最常用的是最大熵模型和HMM模型)。用这种方法的目的是为了摆脱人工编写语言的规则。此方法将语料库做成”树库(tree bank)“(每一个句子都是一棵树),然后对语料进行标注,从树里面来获取各种各样的知识。这种方法是一种数学表示方法,跟词与词之间的距离有关。
基于统计的学习方法“监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、
决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。
基于规则的方法:Apriori,最常用的关联规则算法、 聚类的有k-means等、 分类的SVM,神经网络、
决策树的C5.
0等。
主要看要做什么,每一种方法都有其特别的用处。比如分词中要用到什么方法,词性标注中又要用到什么方法,命名实体识别中呢?等等。。。。。。