前言
编译是把高级语言转换成目标语言(低级语言或机器语言)的过程.
程序的编写围绕着"需求"进行.需求被分解为可以表达的逻辑,再用对应的工具完成.不管是框架,还是编程语言,都是工具.编写应用的程序员根据需求来决定如何使用工具.那么工具本身又是如何实现的呢?这就是设计编译器的人所考虑的.
编译原理比较难,讲述编译原理的书被称为"龙书".理解编译要从逻辑层面和机器层面两个方面进行.概念多又抽象,把能想到的学习方法都用上,争取得到一些知识.以黑皮书"<编译原理> 本科教学版 第2版"为指导书(以下称"本书"),国防科大讲解视频为参考.由于编译原理需要离散数学基础,所以在其中加一些注释.
引入
上下文无关文法及一些概念,句型,句子及语言的定义
概念:字母表,字,空字,字的全体
如图:从∑到∑*,字符集到字的全体.
---解读:字符集∑是一个有穷字母表,其中每个元素称为字符
由字符组成的有穷序列称为∑上的字
不含任何字符的序列称为空字,记为ε(音:epsilən或者艾普西龙)
∑*表示所有字的全体,包含空字ε
记忆与展开:如果有一个字符集包含了26个英文字母∑,则∑*表示任意字符的任意组合.
举例:求连接(积)
如图:其中UV是集合的描述记录
闭包和正规闭包
如图
举例:求U的闭包和正规闭包
结果:U的闭包有空字,U的正规闭包没有空字,两者差一个空字.
上下文无关文法
概念:本书P25最后一段---用于描述程序设计语言语法的表示方法:上下文无关文法.
内容
本书P26:一个上下文无关文法由4个元素组成,终结符号集合,非终结符号集合,产生式集合,开始符号,
图示为课堂内容,
其中:
终结符集合:终结符是不可再分的单位VT;
非终结符集合表达为VN;要求为VT∩VN=∅
文法的开始符号表达为S,其中S∈VN;开始符S至少必须再某个产生式左边出现一次.
产生式集合P(有限),形式为P→α,P∈VN,α∈(VT∪VN)*
=============================内容分割线↓===================================
想不到第一个概念就是如此抽象,为了解决这个情况,采用和离散数学一样的方法,用现实例子来替换概念(学习的目的是为了应用,而不是学术研究,能用则用,放弃部分严谨表达,假设自己的理解就是正确的).
终结符----理解为程序中的关键字和算符,举例:if,else,while,+/-/*/%等
非终结符---自定义的表达式和语句,变量名等. ---终结符与非终结符不能产生交集.
产生式---一条解释的语句,左边是非终结符,右边用终结符和非终结符的字全体来解释.
开始符---???暂时不明
想象一下:终结符表示终结,自身就是一个单位.而非终结符本身不想终结,遇到终结符不得不终结.
=============================内容分割线↑===================================
举例
E是一个表达式,终结符i表示的是个表达式,用+,*连接的还是个表达式,左边右边括起来的也是表达式.
巴科斯范式(BNF)
原因:ASCII编码中没有→,所以用"::="来替代了→.
其他:第一个高级语言FORTRAN,设计者是巴科斯.
上下文的约定
通常只给出开始符号和产生式,如图:E是开始符号,终结符号(i,+,*,(,))---自己推
直接推出和推导
因果关系:因:有一个产生式A→γ,且α,β∈(VT∪VN)* 果:则得到αAβ⇒αγβ
有一连串的直接推出,则得到一个推导.
例如:由文法G(E)推导出(i+i)是合法的文法结构
---解读:仍然很抽象,可看成括号()内的内容可被→右边的内容(或符号|分开的内容)所替换.
从(E)到(E+E):括号内的E被替换称E+E;
+推出和*推出
*推出有两种情况:α=β 或者 α+推出β
个人感觉:+推出,*推出和前面的直接推出,推导没有多大区别
句型,句子和语言
从前面的直接推出和推导,可以得到句型,句子,语言的定义,如图
注意:句子的定义是仅含终结符号(笔者把终结符号想象成已有含义的关键字和算符),句型是没有具体含义的,而句子是有含义的,如下图所见.
语言定义与自然语言的定义有个对应的例子,从句型到句子的推导示例如下
小结
从上下文无关文法到句子,语言的推导.
非常抽象的课程,解决办法:将其具象化,假设自己理解都是正确的.
个人感觉有讲解的理解起来要好一点,光看黑皮书难度更大