Ruby代码的分词与解析:深入探究
1. Ruby分词机制
在Ruby中,若你熟悉C语言且想深入了解Ruby对代码文件进行分词的详细过程,可查看Ruby版本中的 parse.y
文件。 .y
扩展名表明 parse.y
是一个语法规则文件,包含了Ruby解析引擎的一系列规则。该文件极其庞大复杂,代码行数超10000行。
暂时忽略语法规则,在文件约三分之二处(约第6500行),可找到名为 parser_yylex
的C函数,它包含了实际对代码进行分词的代码。仔细查看,会发现一个大型 switch
语句,起始代码如下:
u retry:
v last_state = lex_state;
w switch (c = nextc()) {
nextc()
函数返回代码文件文本流中的下一个字符,可将其视为之前图表中的箭头。 lex_state
变量保存着Ruby当前正在处理的代码状态或类型信息。
大型 switch
语句会检查代码文件的每个字符,并根据字符内容采取不同操作。例如,以下代码用于查找空白字符并忽略它们:
/* white spaces */
case ' ': case '\t': case '\f': case '\r':
case '\13': /* '\v