启动过程
直接开门见山好了,程序入口为vmmain.c
的main
函数,启动过程总结起来是以下四步
- 实例化虚拟机,分配内存,初始化根节点对象,初始化GC
- 编译,将python源文件编译成tpc字节码(python的字节码是pyc)
- 执行字节码
- 释放资源
具体代码分析如下
int main(int argc, char *argv[]) {
tp_vm *tp = tp_init(argc,argv); // 根据命令行参数生成tp_vm实例
tp_import(tp,argv[1],"__main__",0,0); // 执行目标python文件
tp_deinit(tp); // 释放tp_vm实例占用的资源
return(0);
}
然后再看看tp_init
函数做了什么
tp_vm *tp_init(int argc, char *argv[]) {
tp_vm *tp = _tp_init(); // 分配内存,初始化GC以及根节点对象
tp_builtins(tp); // 注册built-in函数
tp_args(tp,argc,argv); // 初始化命令行,赋值到全局变量ARGV
tp_compiler(tp); // 编译源文件
return tp;
}
代码执行过程
代码执行过程主要在tp_import
函数中,让我们来看看具体是怎么样子的。
核心代码如下
// _tp_import
if (!((fname.type != TP_NONE && _tp_str_index(fname,tp_string(".tpc"))!=-1) || code.type != TP_NONE)) {
return tp_ez_call(tp,"py2bc","import_fname",tp_params_v(tp,2,fname,name));
}
g = tp_dict(tp);
tp_set(tp,g,tp_string("__name__"),name); // 模块名
tp_set(tp,g,tp_string("__code__"),code); // 模块字节码
tp_set(tp,g,tp_string("__dict__"),g); // 模块的全局对象,也就是globals()
tp_frame(tp,g,code,0); // 非常重要,初始化方法栈,可以理解为初始化临时变量表locals(),创建新的函数调用栈
tp_set(tp,tp->modules,name,g); // 注册模块到根节点,tp->moduels等价于python中的sys.modules
if (!tp->jmp) { tp_run(tp,tp->cur); } // 看到run终于舒了一口气,要开始执行了
大丈夫不拘小节,抛开细节,我们看到tp_run
最终是下面这样
tp->jmp += 1; if (setjmp(tp->buf)) { tp_handle(tp); } // 处理异常,不管
while (tp->cur >= cur && tp_step(tp) != -1); // 就是你了
tp->jmp -= 1; // 恢复现场
山重水复疑无路,柳暗花明又一村。tp_step
其实才是我们要找的函数,看看函数大小就知道了,哈哈哈。tp_step
实际上就已经是字节码的执行过程了,字节码听起来非常高大上,一说大家就想到了jvm
啊之类的。其实字节码是非常简单,这也是实现跨平台的常用技术,其实就是字节化的中间代码。tinypy
中一共有50个字节码,其中有49个有具体的含义,最后一个TP_ITOTAL
无特殊意义,作为记录字节码长度作用(枚举值从0开始,TP_ITOTAL刚好等于前面的字节码个数)
下面开始介绍字节码,首先tinypy
是基于寄存器的虚拟机字节码,主流语言使用寄存器的语言我知道的主要是lua和dalvik(安卓上的jvm),于此相对的是基于栈的虚拟机,目前大部分高级语言的虚拟机(java,C#,python)等都是基于栈的,关于这方面知识R大大在