深入解析DoctorWkt/acwj项目中指针递增与模运算的实现

深入解析DoctorWkt/acwj项目中指针递增与模运算的实现

acwj A Compiler Writing Journey acwj 项目地址: https://gitcode.com/gh_mirrors/ac/acwj

前言

在编译器开发过程中,指针运算和基本运算符的实现是核心功能之一。本文将深入探讨DoctorWkt/acwj项目中如何修复指针递增/递减运算的问题,以及如何添加缺失的模运算功能。

指针递增/递减的问题分析

在之前的实现中,编译器在处理指针算术运算时存在一个关键缺陷:当使用++--运算符时,没有考虑指针所指向类型的大小。

问题重现

考虑以下情况:

int *ptr;
ptr++;  // 应该增加sizeof(int)字节,而不是1字节

在原有实现中,编译器会生成简单的incq指令,这会导致指针只增加1字节,而不是预期的4或8字节(取决于系统架构)。

解决方案设计

为了解决这个问题,我们需要:

  1. 识别指针类型变量
  2. 确定指针指向类型的大小
  3. 根据操作类型(递增或递减)调整增量值

实现细节

合并加载函数

首先,我们将cgloadglob()cgloadlocal()合并为统一的cgloadvar()函数,这样可以消除代码重复并统一处理逻辑。

int cgloadvar(struct symtable *sym, int op) {
    int r, postreg, offset=1;
    
    // 获取新寄存器
    r = alloc_register();
    
    // 如果是指针类型,使用指向类型的大小作为增量
    if (ptrtype(sym->type))
        offset= typesize(value_at(sym->type), sym->ctype);
    
    // 处理递减操作
    if (op==A_PREDEC || op==A_POSTDEC)
        offset= -offset;
    
    // 预处理操作(前置++/--)
    if (op==A_PREINC || op==A_PREDEC) {
        // 加载符号地址
        if (sym->class == C_LOCAL || sym->class == C_PARAM)
            fprintf(Outfile, "\tleaq\t%d(%%rbp), %s\n", sym->st_posn, reglist[r]);
        else
            fprintf(Outfile, "\tleaq\t%s(%%rip), %s\n", sym->name, reglist[r]);
        
        // 修改地址处的值
        switch (sym->size) {
            case 1: fprintf(Outfile, "\taddb\t$%d,(%s)\n", offset, reglist[r]); break;
            case 4: fprintf(Outfile, "\taddl\t$%d,(%s)\n", offset, reglist[r]); break;
            case 8: fprintf(Outfile, "\taddq\t$%d,(%s)\n", offset, reglist[r]); break;
        }
    }
    
    // 加载值到寄存器
    // ...(省略加载代码)
    
    // 后处理操作(后置++/--)
    if (op==A_POSTINC || op==A_POSTDEC) {
        postreg = alloc_register();
        // 使用与预处理相同的代码
        free_register(postreg);
    }
    
    return(r);
}

关键改进点

  1. 动态计算增量:根据指针指向类型的大小动态计算增量值
  2. 统一处理方式:使用add指令替代固定的inc指令,支持任意大小的增量
  3. 寄存器管理:合理分配和释放寄存器,避免资源泄漏

模运算的实现

在自举过程中发现缺失了模运算(%%=)功能,需要完整实现。

实现步骤

  1. 添加token定义
enum {
    // ...其他token
    T_ASMOD,  // %=
    T_MOD,    // %
};
  1. 添加AST节点类型
enum {
    // ...其他AST节点
    A_ASMOD,  // %=
    A_MOD,    // %
};
  1. 设置运算符优先级
static int OpPrec[] = {
    // ...其他运算符
    110, 110, 110  // T_STAR, T_SLASH, T_MOD
};
  1. 代码生成
int cgdivmod(int r1, int r2, int op) {
    fprintf(Outfile, "\tmovq\t%s,%%rax\n", reglist[r1]);
    fprintf(Outfile, "\tcqo\n");
    fprintf(Outfile, "\tidivq\t%s\n", reglist[r2]);
    if (op== A_DIVIDE)
        fprintf(Outfile, "\tmovq\t%%rax,%s\n", reglist[r1]);
    else
        fprintf(Outfile, "\tmovq\t%%rdx,%s\n", reglist[r1]);
    free_register(r2);
    return (r1);
}

技术细节

  • 利用x86-64的idiv指令同时实现除法和模运算
  • cqo指令将RAX符号扩展到RDX:RAX,为有符号除法做准备
  • 根据操作类型选择将商(RAX)或余数(RDX)存入目标寄存器

链接问题的解决

在自举过程中发现的标签传播问题,通过修改genIF()函数解决:

static int genIF(struct ASTnode *n, int looptoplabel, int loopendlabel) {
    // ...其他代码
    
    // ELSE子句
    if (n->right) {
        genAST(n->right, NOLABEL, NOLABEL, loopendlabel, n->op);
        genfreeregs(NOREG);
        cglabel(Lend);
    }
    
    // ...其他代码
}

关键改进是正确传播loopendlabel参数,确保循环和switch语句的结束标签能够正确生成。

总结与展望

通过本文的分析,我们解决了DoctorWkt/acwj项目中的两个关键问题:

  1. 指针递增/递减运算的正确实现
  2. 模运算功能的完整添加

这些改进使得编译器能够正确处理更复杂的指针运算和算术运算,为后续的自举工作打下了坚实基础。下一步将进入调试阶段,解决编译器自举过程中的各种问题。

经验教训

  1. 统一处理相似功能:合并cgloadglobcgloadlocal减少了代码重复
  2. 利用硬件特性idiv指令同时提供商和余数,简化了模运算实现
  3. 全面测试:新增功能后需要全面测试各种边界情况

这些经验对于开发可靠、高效的编译器具有重要指导意义。

acwj A Compiler Writing Journey acwj 项目地址: https://gitcode.com/gh_mirrors/ac/acwj

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

姚蔚桑Dominique

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值