python源码学习(八)——string对象的intern机制

本文深入探讨了Python中字符串的Intern机制,解释了如何避免重复创建相同的字符串对象以节省内存空间,并提供了源代码示例。

python源码学习(八)——string对象的intern机制

 

今天我们来看看python中一个非常重要的机制,intern机制,首先我们来举个例子,如下:
a1=”HelloWorld”
a2=”HelloWorld”
a3=”HelloWorld”
a4=”HelloWorld”
a5=”HelloWorld”
a6=”HelloWorld”
a7=”HelloWorld”
a8=”HelloWorld”
a9=”HelloWorld”
如果我们这样写的话,python会不会创建9个对象呢?在内存中会不会开辟10个”HelloWorld”的内存空间呢?想一下,如果是这样的话,我们写10000个对象,比如a1=”HelloWorld”…..a1000=”HelloWorld”,
那他岂不是开辟了1000个”HelloWorld”所占的内存空间了呢?呵呵,如果真这样,内存不就爆了吗?所以我们的python中有这样一个机制——intern机制,让他只占用一个”HelloWorld”所占的内存空间。
Intern机制的目的在于,在Python运行系统中,不论用户创建了多少像上面的a,只有一个”Python“对象,其他的都是指向这个对象,大家共用这个对象。也就是说,当a1创建的时候,Python会对a1进行Intern机制处理,然后当a2创建的时候,a2指向一个PyStringObject temp,通过intern机制发现已经有a2与a1的对象存储的字符串其实一样,那么就会把a2指向a1指向的那个对象,这样用来创建a2的那个临时对象temp会因为a2指向其他对象而进行de_allocate而销毁,这样就不会浪费内存了。
上面代码中的size==0括号的内容其实也就是对nullstring的一种intern机制处理,令所有创建的Null string都指向同一个对象。

下面是intern机制的代码:

1static PyObject *interned;
2void PyString_InternInPlace(PyObject **p)
3{
4    register PyStringObject *s = (PyStringObject *)(*p);
5    PyObject *t;
6    if (s == NULL || !PyString_Check(s))
7        Py_FatalError("PyString_InternInPlace: strings only please!");
8    /* If it's a string subclass, we don't really know what putting
9       it in the interned dict might do. */
10    if (!PyString_CheckExact(s))
11        return;
12    if (PyString_CHECK_INTERNED(s))
13        return;
14    if (interned == NULL) {
15        interned = PyDict_New();
16        if (interned == NULL) {
17            PyErr_Clear(); /* Don't leave an exception */
18            return;
19        }
20    }
21    t = PyDict_GetItem(interned, (PyObject *)s);
22    if (t) {
23        Py_INCREF(t);
24        Py_DECREF(*p);
25        *p = t;
26        return;
27    }
28 
29    if (PyDict_SetItem(interned, (PyObject *)s, (PyObject *)s) < 0) {
30        PyErr_Clear();
31        return;
32    }
33    /* The two references in interned are not counted by refcnt.
34       The string deallocator will take care of this */
35    Py_REFCNT(s) -= 2;
36    PyString_CHECK_INTERNED(s) = SSTATE_INTERNED_MORTAL;
37}

其中重要的我已经粗体字表明了,interned的定义是一个PyObject,但从下面的代码可以看出,在interned=nul的时候,interned = PyDict_New();所以它实际上是一个PyDictObject,我们可以暂时理解为c++里面的map对象。对一个PyStringObject对象进行intern机制处理的时候,会通过PyDict_GetItem去从Interned对象中查找有没有一样的已经创建的对象,有的话就直接拿来用,没有的话就说明这种对象是第一次创建,用PyDict_SetItem函数把相应的信息存到interned里面,下次再创建一样的就能从中找到了。
之前在讲PyIntObject的时候有提到过对象池,那么对于PyStringObject,又怎么可能没有呢?对于int,是比较小的整数会一直存在于内存中,那么对于string,为会长度为1的字符创建对象池。
static PyStringObject *characters[UCHAR_MAX + 1];
下面补全上面部分省略的代码:

1if (size == 1 && str != NULL) {
2        PyObject *t = (PyObject *)op;
3        PyString_InternInPlace(&t);
4        op = (PyStringObject *)t;
5        characters[*str & UCHAR_MAX] = op;
6        Py_INCREF(op);
7    }

这样,每当创建长度为1的字符串的时候,都会把它存到characters里面,这样之后创建长度为1的字符时,如果检测到已经在characters里面了,就直接返回这个缓冲的对象(如下面代码所示),不用进行malloc,这也就是该缓冲池的作用

查看源代码

打印帮助

1if (size == 1 && str != NULL &&
2        (op = characters[*str & UCHAR_MAX]) != NULL)
3    {
4#ifdef COUNT_ALLOCS
5        one_strings++;
6#endif
7        Py_INCREF(op);
8        return (PyObject *)op;

转载于:https://my.oschina.net/tplinuxhyh/blog/798409

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值