揭示自然语言数字化的两条路径（前者是美国人开辟的；后者是本人中国人开辟的）...-优快云博客

本文探讨了自然语言处理领域的两条路径，一是基于美国人的低到高的数字化方式，二是作者提出的从低端到高端的间接路径。通过在低端建立二进制与十进制转换机制，在高端建立单音节字与双音节乃至多音节字组的人机互助优化机制，实现了自然语言的数字化。文章还介绍了进一步理解智能体脑智层次的方法，以及与信息学、语言学交叉的特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

过去和现在流行的做法就是美国人开辟的自然语言数字化的第一条路径，其特点是数字计算机人机交互的过程在本质上是就低（机器语言）不就高（日常语言），其理由就是因为后者存在多义性而计算机不能直接处理这种多义造成的歧义性难题；而本人即中国人开辟的自然语言数字化的第二条路径，其特点是不在低（机器语言）、中（各种各样的程序语言）、高（日常语言）三者现有的关系上直接走自然语言数字化的第一条路径，而间接走自然语言数字化的第二条路径，其理由之一是因为计算机的数字化技术已经非常成熟，故对自然语言处理和理解的关键是不能从就低（机器语言）不就高（日常语言）人机交互过程中得到解决的，因此，务必在低端（机器语言）和高端（日常语言）的中间地带另觅它途——也就是在现有的中间过渡过程（各种各样的程序语言）这一看似直接其实更为曲折的第一条路径之外另寻新途——这就是一方面在低端（机器语言）建立{二进制数}和{十进制数}自动转换机制，另一方面又在高端（日常语言）建立{单音节字（即：言）}与{双音节乃至多音节的字组（即：语）}人机互助优化机制进而再与前述低端（机器语言）建立的{二进制数}和{十进制数}自动转换机制之间通过寻求一一对应的函数关系而建立双向的“同义并列、对应转换”关系，并以此实现自然语言数字化的第二条路径。这样一来，只有少数熟悉某程序语言的人们所走的第一条路径就恰似一条羊肠小道；而可以满足绝大多数至少精通一门日常语言的人们所走的第二条路径就恰似一条宽广大道。换一句话说，一般的标准化程序和初级的个性化程序几乎均可通过广义的双语信息处理的方式帮助用户理解计算机处理自然语言的进程。这样一来，不仅作为计算机这类第二脑智的特征对用户透明起来了，而且，由此也可通过人机协作过程的透明化来帮助人们较好地理解第一脑智、第二脑智、第三脑智三者之间的区别和联系，这也就可以帮助人们逐步揭开脑智的奥秘，至少可以在最基本的层次理解：第一脑智基于神经生理及心理{兴奋与抑制}和逻辑思维{真与假}、第二脑智基于机电物理{开与关}及数理{0和1}、第三脑智同时基于上述四个方面即生理及心理{兴奋与抑制}和逻辑思维{真与假}和物理{开与关}及数理{0和1}。而余下的进一步的理解就要从《间接计算模型和间接形式化方法》（《软件》2011第5期专家论坛的第一篇论文）图2所示的这一最简单的通用模型来获得顿悟，进而贯通图1-图6可获得较为全面的理解或进一步的顿悟。如果说这主要是从信息学基础研究获得的突破，那么，另一方面的理解则要从《语言的取值与置信》（被“语言与价值国际学术会议”正式录取并在会上宣读的英文论文——其中文稿先期公开发表之后‏排在《信息科学,经管科教》第15期首发论文第一篇）则主要是从语言学基础研究获得的突破（其中图1是从语言学研究对象做的纯形式研究，图2是从语言哲学对语言学研究对象做的纯形式研究的取值方法和置信态度所做的分析研究，其中揭示了一个涉及语言学科学研究对象的进一步形式化细分的问题，即：在索绪尔区分语言和言语之后已被学界公认了近百年的研究成果基础之上邹晓辉基于汉语的特点并从它可能与其他语种之间存在某种共性的角度进一步区分了言和语）。两篇文章相交的那一部分内容（尤其是那几幅示意图）正好说明语言与信息的交叉特征。