Lua源码分析(2) -- 对象表示

本文深入分析了Lua源码中对象的表示方式,重点介绍了TValue结构和Value联合体如何实现动态类型。Lua的类型附着于值,通过tt字段标识类型。Value联合体允许表示GCObject指针(用于可回收对象)和原始类型(如数值、布尔等)。同时,GCObject用于表示如字符串、用户数据、表和协程等不同类型的对象。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Lua是动态类型的语言, 即是说类型附着于值而不变量[1]. Lua的八种基本类型空, 布尔, 数值, 字符串, 表, 函数和用户数据. 所有类似的值都是虚拟机的第一类值. Lua 解释器将其表示成为标签联合(tagged union). 如下面代码示例所示:

lobject.h : 56
/*
** Union of all Lua values
*/
typedef union {
    GCObject *gc;
    void *p;
    lua_Number n;
    int b;
} Value;


/*
** Tagged Values
*/

#define TValuefields Value value; int tt

typedef struct lua_TValue {
    TValuefields;
} TValue;

lstate.h : 132

/*
** Union of all collectable objects
*/

union GCObject {
    GCheader gch;
    union TString ts;
    union Udata u;
    union Closure cl;
    struct Table h;
    struct Proto p;
    struct UpVal uv;
    struct lua_State th; /* thread */
};

lobject.h : 39
/*
** Common Header for all collectable objects (in macro form, to be
** included in other objects)
*/
#define CommonHeader GCObject *next; lu_byte tt; lu_byte marked


/*
** Common header in struct form
*/
typedef struct GCheader {
    CommonHeader;
} GCheader;

首先看到的一个TValue结构,它是由一个Value类型的字段value和int类型字段tt组成,它由于一个宏定义出来.很显然,这里的tt就是用于表示这个值的类型,这也是之前所说的,Lua的类型是附着于值上的原因.

接 下来,再打量打量Value的定义,它被定义为union.这样做的目的是让这一个类型可以表示多个类型.从这个定义中可以看出这样一点:Lua的值可以 分成两类,第一类是可以被垃圾回收机制回收的对象,它们统一使用GCObject的指针来表示;另一类是原始类型,直接使用C语言的类型来表示相应类型, 如:用void *来表示lightuesrdata, 用lua_Number来表示数值,用int来表示boolean.这里需要注意的是lua_Number是在如下两个文件定义出来的.由于Lua是易于 嵌入的语言,在某些特定的环境下,所有数值都用双精度浮点来表示并不合适,因此,在Lua的配置文件上使用宏来定义数值类型.这使得要改变Lua的数值类 型变得非常简单.


lua.h:98

/* type of numbers in Lua */
typedef LUA_NUMBER lua_Number;

luaconf.h:504
#define LUA_NUMBER double

接 下来继续看GCObject的定义,这个类型中的字段在这里并不做详细展开,只是说明是用于表示什么类型的.TString,UData,Table, lua_State分别用于表示字符串,用户数据,表和协程.而Closure,Proto,UpVal都是用于表示第一类的函数的. 基于栈的,词法定界的第一类函数在实现上是有一些难度的,看看如下代码:


function foo()
    local a
    return function() return a end
end


由 于Lua是词法定界的,局部变量a只在函数foo中有效,所以它可以保存在foo的栈中,因此当foo执行完毕a而就随着栈的销毁而成为垃圾; 但问题是foo返回的函数还在引用着它, 这个函数会在栈销毁后继续存在,当它返回a的时候又拿什么返回呢? 这个问题将在函数的实现中介绍. 这也是为什么实现函数用了三个类型的原因.

另外, 这些类型的开头都是GCHeader, 它的所有字段由宏CommonHeader给出来了. 字段next说明可回收对象是可以放到链表中去的, 而marked是在GC中用于标记的. 具体的GC算法在这一章就不做介绍了.

值得注意是在CommonHeader中还有一个tt用于表示值的类型, 在TValue中不是有一个吗? 这样数据不是冗余了? 我是这样看这个问题的:
第一: TValue是所有值的集合, 而GC中如果每个对象都要判断是否是可回收的, 必然会非常影响效率, 因此将GCObject独立出来. 可以省去这一层判断.
第二: 对于基本类型来说, 所需要的空间相对较小, 如果将复杂的对象也做为一union放在一起, 就会使得空间效率低,因此在TValue中只使用了一个指针来表示GCObject.
这样在GC对看到的对象就不再是TValue了,所以对应的类型标识也不在了,所以在CommonHeader中加了一个字段来表示类型.

最后,给出一副图来表于Lua的内存表示:
lua.object.gif

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值