词法分析器的工作过程分析

        Webkit中。有个词法分析器--HTMLTokenizer,她是怎么工作的呢。网页字节流是她的输入。她的输出是一个个的词语Token,比方div,input,img。script等等HTML文件里的标准元素(Element)。

        前一篇文章关于DOM的创建里说过,HTML元字符解析器(HTMLMetaChractorParser)和HTML词法分析器(HTMLTokenizer)协同工作,一起分析、解析出词语(HTMLMetaChractorParser取出全部的页面中的字符。并调用HTMLTokenizer的nextToken函数处理它):



         以下这张图。就是Tokenizer详细的工作过程。我们看的出来。她是个状态机,先取<,再取>,就表示一个词语(token)结束了,之后进入下一个状态。周而复始。

     


在规范规约的过程中,一方面记住已移进和规约出的整个符号串,即记住“历史”,另一方面根据所用的产生式推测未来可能碰到的输入符号,即对未来进行“展望”。当一串貌似句柄的符号串呈现于分析栈的顶端时,我们希望能够根据记载的“历史”和“展望”以及“现实”的输入符号等三个方面的材料,来确定栈顶的符号串是否构成相对某一产生式的句柄。 2.LR分析器实质上是一个带先进后出存储器(栈)的确定有限状态自动机。 3.LR分析器的每一步工作是由栈顶状态和现行输入符号所唯一决定的。 4.为清晰说明LR分析器实现原理和模型: LR分析器的核心部分是一张分析表。这张分析表包括两个部分,一是“动作”(ACTION)表,另一是“状态转换”(GOTO)表。他们都是二维数组。ACTION(s,a)规定了当状态s面临输入符号a时应采取什么动作。GOTO(s,X)规定了状态s面对文法符号X(终结符或非终结符)时下一状态是什么。显然,GOTO(s,X)定义了一个以文法符号为字母表的DFA。 每一项ACTION(s,a)所规定的动作不外是下述四种可能之一: (1)移进 把(s,a)的下一个转态s’ = GOTO(s,X)和输入符号a推进栈,下一输入符号变成现行输入符号。 (2)规约 指用某一产生式A→β 进行规约。假若β的长度为r,规约的动作是A,去除栈顶的r个项,使状态Sm-r 变成栈顶状态,然后把(Sm-r,A)的下一状态s’ = GOTO(Sm-r,A)和文法符号A推进栈。规约动作不改变现行输入符号。执行规约动作意味着β(= Xm-r+1…Xm)已呈现于栈顶而且是一个相对于A的句柄。 (3)接受 宣布分析成功,停止分析器的工作。 (4)报错 发现源程序含有错误,调用出错处理程序。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值