lstring.c(5.3.4)解析

本文详细介绍了Lua语言中字符串的内部处理机制,包括字符串表(string table)的工作原理、字符串的比较与哈希计算方法,以及Lua如何管理和优化字符串缓存。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

/*
** $Id: lstring.c,v 2.56 2015/11/23 11:32:51 roberto Exp $
** String table (keeps all strings handled by Lua)
** See Copyright Notice in lua.h
*/

#define lstring_c
#define LUA_CORE

#include "lprefix.h"


#include <string.h>

#include "lua.h"

#include "ldebug.h"
#include "ldo.h"
#include "lmem.h"
#include "lobject.h"
#include "lstate.h"
#include "lstring.h"


#define MEMERRMSG       "not enough memory"


/*
** Lua will use at most ~(2^LUAI_HASHLIMIT) bytes from a string to
** compute its hash
*/
// lua最多会从一个字符串中截取2^5字节来计算其哈希值(不足32字节的全部用上,超出的截取最后的32字节)
#if !defined(LUAI_HASHLIMIT)
#define LUAI_HASHLIMIT		5
#endif


/*
** equality for long strings
*/
// 比较长字符串a和b是否相等
// 首先检查a和b的类型是否相等
// 然后检查a和b是否指向同一对象
// 然后比较长度是否相等,最后调用memcmp来比较内存内容
// memcmp是比较内存区域buf1和buf2的前count个字节。该函数是按字节比较的。
// int memcmp(const void *buf1, const void *buf2, unsigned int count);
// 当buf1<buf2时,返回值小于0
// 当buf1==buf2时,返回值=0
// 当buf1>buf2时,返回值大于0
int luaS_eqlngstr (TString *a, TString *b) {
  size_t len = a->u.lnglen;
  lua_assert(a->tt == LUA_TLNGSTR && b->tt == LUA_TLNGSTR);
  return (a == b) ||  /* same instance or... */
    ((len == b->u.lnglen) &&  /* equal length and ... */
     (memcmp(getstr(a), getstr(b), len) == 0));  /* equal contents */
}

// 计算字符串的哈希值
// 对于长度小于2^LUAI_HASHLIMIT的字符串,每一个字节都会参加hash计算,长度大于等于32的字符串,从末尾开始,每(1 >> LUAI_HASHLIMIT) + 1位参与hash计算
// str是待计算hash的字符串,s是字符串的长度,seed是哈希算法随机种子
// 此处的随机种子是在创建虚拟机的global_State(全局状态机)时构造并存储在global_State中的
// 此处需要注意一下setp的计算
// 首先把把l向右移动5位,然后加1,这样就使长度小于32的字符串的步长变为了1
unsigned int luaS_hash (const char *str, size_t l, unsigned int seed) {
  unsigned int h = seed ^ cast(unsigned int, l);
  size_t step = (l >> LUAI_HASHLIMIT) + 1;
  for (; l >= step; l -= step)
    h ^= ((h<<5) + (h>>2) + cast_byte(str[l - 1]));
  return h;
}


// 计算长字符串的哈希值
// 首先判断是不是长字符串,然后判断是否hash过(这里是根据extra字段,extra为1的话,不需要再进行hash操作,短字符串默认就是1)
// 然后再调用上面计算哈希值的函数就可以了,这里传递的hash字段是字符串在创建的时候从global_State拿到的哈希随机种子
// 然后extra置为1
unsigned int luaS_hashlongstr (TString *ts) {
  lua_assert(ts->tt == LUA_TLNGSTR);
  if (ts->extra == 0) {  /* no hash? */
    ts->hash = luaS_hash(getstr(ts), ts->u.lnglen, ts->hash);
    ts->extra = 1;  /* now it has its hash */
  }
  return ts->hash;
}


/*
** resizes the string table
*/
// 当stringtable中的字符串数量(nuse域)超过预定容量(size域)时,说明stringtable太拥挤,许多字符串可能都哈希到同一个维度中去,这将会降低stringtable的遍历效率。
// 这个时候需要调用luaS_resize方法将stringtable的哈希链表数组扩大,重新排列所有字符串的位置

// 首先获取全局表的strt域,如果newsiz大于strt->size时就需要扩容了,具体操作是:
// 调用luaM_reallocvector调整tb->hash中的指针指向的元素数量,紧接着把新创建的tb->hash[i]全部指向NULL,然后在下一个for循环里面进行重新hash
// 拿到tb中第一个hash数组,紧接着对此数组中的字符串进行hash操作,每一个单次for循环都是对hash的一个链表中的所有字符串元素进行重新hash
// 首先拿到p作为此链表的指针,然后断开hash数组和此链表的链接,最后在一个while中依次对链表中的元素进行重新hash(lmod(p->hash, newsize))
// 通过获取出来的h,来插入hash数组的相应链表的头位置,按照此过程一直遍历完整个hash数组(此方法存在的那个元素多次hash的状况)

// 如果是需要缩减strt中nuse域中的长度时,只需要调用luaM_reallocvector调整数量就可以了(此api定义在lmem.h中)
void luaS_resize (lua_State *L, int newsize) {
  int i;
  stringtable *tb = &G(L)->strt;
  if (newsize > tb->size) {  /* grow table if needed */
    luaM_reallocvector(L, tb->hash, tb->size, newsize, TString *);
    for (i = tb->size; i < newsize; i++)
      tb->hash[i] = NULL;
  }
  for (i = 0; i < tb->size; i++) {  /* rehash */
    TString *p = tb->hash[i];
    tb->hash[i] = NULL;
    while (p) {  /* for each node in the list */
      TString *hnext = p->u.hnext;  /* save next */
      unsigned int h = lmod(p->hash, newsize);  /* new position */
      p->u.hnext = tb->hash[h];  /* chain it */
      tb->hash[h] = p;
      p = hnext;
    }
  }
  if (newsize < tb->size) {  /* shrink table if needed */
    /* vanishing slice should be empty */
    lua_assert(tb->hash[newsize] == NULL && tb->hash[tb->size - 1] == NULL);
    luaM_reallocvector(L, tb->hash, tb->size, newsize, TString *);
  }
  tb->size = newsize;
}


/*
** Clear API string cache. (Entries cannot be empty, so fill them with
** a non-collectable string.)
*/
// 清除全局表中的字符串换存
// 如果对象是白色(意味着当前对象为待访问状态,表示对象还没有被GC标记过,这也是任何一个对象创建后的初始状态,
  // 如果一个对象在结束GC扫描之后仍然是白色,则说明该对象没有被系统中的任何一个对象所引用,可以回收其空间了)
// 然后用一个宏字符串来替代?
void luaS_clearcache (global_State *g) {
  int i, j;
  for (i = 0; i < STRCACHE_N; i++)
    for (j = 0; j < STRCACHE_M; j++) {
    if (iswhite(g->strcache[i][j]))  /* will entry be collected? */
      g->strcache[i][j] = g->memerrmsg;  /* replace it with something fixed */
    }
}


/*
** Initialize the string table and the string cache
*/
// 初始化字符串表和字符串缓存
// luaS_resize初始化字符串表
// 然后全局表的memerrmsg指向一个不可回收的字符串(luaC_fix)
// 然后让字符串缓存全部指向此不可回收的字符串
void luaS_init (lua_State *L) {
  global_State *g = G(L);
  int i, j;
  luaS_resize(L, MINSTRTABSIZE);  /* initial size of string table */
  /* pre-create memory-error message */
  g->memerrmsg = luaS_newliteral(L, MEMERRMSG);
  luaC_fix(L, obj2gco(g->memerrmsg));  /* it should never be collected */
  for (i = 0; i < STRCACHE_N; i++)  /* fill cache with valid strings */
    for (j = 0; j < STRCACHE_M; j++)
      g->strcache[i][j] = g->memerrmsg;
}



/*
** creates a new string object
*/
// l字符串的长度,tag是字符串的类型,h是默认的hash种子
// sizelstring就是求出UTString的size
// luaC_newobj创建一个可以被GC的对象
// 然后再把o转换成TString类型,继续设置ts的hash字段,和extra字段(extra用于标记是否是虚拟机保留的字符串,如果这个值为1,那么不会GC)
// 然后把字符串的最后以'\0'结尾
static TString *createstrobj (lua_State *L, size_t l, int tag, unsigned int h) {
  TString *ts;
  GCObject *o;
  size_t totalsize;  /* total size of TString object */
  totalsize = sizelstring(l);
  o = luaC_newobj(L, tag, totalsize);
  ts = gco2ts(o);
  ts->hash = h;
  ts->extra = 0;
  getstr(ts)[l] = '\0';  /* ending 0 */
  return ts;
}


// 创建一个长字符串
// 调用createstrobj
TString *luaS_createlngstrobj (lua_State *L, size_t l) {
  TString *ts = createstrobj(L, l, LUA_TLNGSTR, G(L)->seed);
  ts->u.lnglen = l;
  return ts;
}

// 从全局变量就是global_State的strt成员里面移除特定字符串
// 首先得到tb,指向strt数组,然后再通过tb的hash数组通过提供tb的长度和字符串的hash,来找到字符串属于哪个链表
// 然后一直循环,直到找到等于ts的,然后就把这个字符串的地址给抹去了(不会内存泄漏???)
void luaS_remove (lua_State *L, TString *ts) {
  stringtable *tb = &G(L)->strt;
  TString **p = &tb->hash[lmod(ts->hash, tb->size)];
  while (*p != ts)  /* find previous element */
    p = &(*p)->u.hnext;
  *p = (*p)->u.hnext;  /* remove element from its list */
  tb->nuse--;
}


/*
** checks whether short string exists and reuses it or creates a new one
*/
// 判断这个字符串是否存在,存在的话就重用不然就创建一个新的
static TString *internshrstr (lua_State *L, const char *str, size_t l) {
  TString *ts;
  global_State *g = G(L);
  unsigned int h = luaS_hash(str, l, g->seed);
  TString **list = &g->strt.hash[lmod(h, g->strt.size)];
  lua_assert(str != NULL);  /* otherwise 'memcmp'/'memcpy' are undefined */
  for (ts = *list; ts != NULL; ts = ts->u.hnext) {
    if (l == ts->shrlen &&
        (memcmp(str, getstr(ts), l * sizeof(char)) == 0)) {
      /* found! */
      if (isdead(g, ts))  /* dead (but not collected yet)? */
        changewhite(ts);  /* resurrect it */
      return ts;
    }
  }
  if (g->strt.nuse >= g->strt.size && g->strt.size <= MAX_INT/2) {
    luaS_resize(L, g->strt.size * 2);
    list = &g->strt.hash[lmod(h, g->strt.size)];  /* recompute with new size */
  }
  ts = createstrobj(L, l, LUA_TSHRSTR, h);
  memcpy(getstr(ts), str, l * sizeof(char));
  ts->shrlen = cast_byte(l);
  ts->u.hnext = *list;
  *list = ts;
  g->strt.nuse++;
  return ts;
}


/*
** new string (with explicit length)
*/
// LUAI_MAXSHORTLEN是40,定义在llimits.h中,用作判断字符串是长字符串还是短字符串
// 在这里,如果是短字符串的话,就调用internshrstr
// 如果是长字符串的话,就先新建一个字符串变量(TString)
// 如果长度太大的话就报错,如何判断长度太大,首先你要明白MAX_SIZE是啥,有关MAX_SIZE的定义在llimits.h中
TString *luaS_newlstr (lua_State *L, const char *str, size_t l) {
  if (l <= LUAI_MAXSHORTLEN)  /* short string? */
    return internshrstr(L, str, l);
  else {
    TString *ts;
    if (l >= (MAX_SIZE - sizeof(TString))/sizeof(char))
      luaM_toobig(L);
    ts = luaS_createlngstrobj(L, l);
    memcpy(getstr(ts), str, l * sizeof(char));
    return ts;
  }
}


/*
** Create or reuse a zero-terminated string, first checking in the
** cache (using the string address as a key). The cache can contain
** only zero-terminated strings, so it is safe to use 'strcmp' to
** check hits.
*/
// 创建或重用一个以'\0'结尾的字符串,首先检查缓存(使用字符串的地址做为key来获取字符串)
// 这个缓存能够包含以'\0'结尾的字符串,因此使用'strcmp'来检查是否命中是安全的

// 在lua中,字符串是被内化的一种数据结构,内化的意思就是说,每个存放lua字符串的变量,实际上存放的并不是一份字符串的数据副本,而是这份字符串的引用
// 因此,在lua中字符串是一个不可变的数据,然后呐,为了实现内化,在lua虚拟机中必然要存在一个全局的地方存放当前系统中的所有字符串,lua虚拟机使用一个散列通来管理字符串
// 上面说到了lua虚拟机中存在一个全局的地方存放字符串,这个全局变量就是global_State的strt成员。它是一个散列数组
// 当创建一个字符串时,首先根据哈希算法,算出哈希值,这个算出来的哈希值就是strt数组的索引值,如果这个地方已经有值了,则使用链表串接起来(串接部分不能超过STRCACHE_M)
// p指向的是strt的第一个链表,然后再比较str和当前的字符串有没有一样的,有的话,直接返回
// 如果不存在一样的字符串的话,就创建一个
// 首先要做的操作就是把当前strt中的元素,全部往后移一个位置,p[0]用来存放新建的字符串
TString *luaS_new (lua_State *L, const char *str) {
  unsigned int i = point2uint(str) % STRCACHE_N;  /* hash */
  int j;
  TString **p = G(L)->strcache[i];
  for (j = 0; j < STRCACHE_M; j++) {
    if (strcmp(str, getstr(p[j])) == 0)  /* hit? */
      return p[j];  /* that is it */
  }
  /* normal route */
  for (j = STRCACHE_M - 1; j > 0; j--)
    p[j] = p[j - 1];  /* move out last element */
  /* new element is first in the list */
  p[0] = luaS_newlstr(L, str, strlen(str));
  return p[0];
}


// 创建一个userdata
Udata *luaS_newudata (lua_State *L, size_t s) {
  Udata *u;
  GCObject *o;
  if (s > MAX_SIZE - sizeof(Udata))
    luaM_toobig(L);
  o = luaC_newobj(L, LUA_TUSERDATA, sizeludata(s));
  u = gco2u(o);
  u->len = s;
  u->metatable = NULL;
  setuservalue(L, u, luaO_nilobject);
  return u;
}


评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值