引子:
今天做题目时,碰到个东西感觉有意思:有一个pandas dataframe格式的数据,第一列是id号,需要去掉;但是去掉之前你不知道之后要不要用它,所以先保存一下:
ID = df['ID']
之前,老师讲过,像这样保存内存地址必须先给一个变量名,要不然会被内存清除。比如:
def Foo():
print("Good")
Foo #这个是看函数的内存地址
Foo() #运行之后就被清除了
s = Foo() #没被清除,print(s)会给一个值
问题来了:借鉴于另一个博客的例子(https://blog.youkuaiyun.com/qq_32907349/article/details/52190796)
import copy
origin = [1, 2, [3, 4]]
#origin 里边有三个元素:1, 2,[3, 4]
cop1 = copy.copy(origin)
cop2 = copy.deepcopy(origin)
cop1 == cop2 #值相等
True
cop1 is cop2 #地址是否一样
False
#cop1 和 cop2 看上去相同,但已不再是同一个object
origin[2][0] = "hey!"
origin
[1, 2, ['hey!', 4]]
cop1
[1, 2, ['hey!', 4]]
cop2
[1, 2, [3, 4]]
#把origin内的子list [3, 4] 改掉了一个元素,观察 cop1 和 cop2
很容易看出,浅拷贝copy1因为赋值了origin对象本身,内存地址和origin不同了,但是origin改变了数值,浅拷贝也跟着改变了,为什么这样呢?因为它创建一个新的对象,其内容是原对象中元素的引用,并没有拷贝元素值本身。(拷贝组合对象,不拷贝子对象)
深拷贝:是指创建一个新的对象,然后递归的拷贝原对象所包含的子对象。
赋值操作:a = b,b如果想象成一个指针,指向一个内存地址,那么a也相当于一个指针,两个指针指向同一个内存地址,也就是对象;
浅拷贝:copy了一个新的对象,这个新的对象比如list没有存值,只是存的指针,指向origin数值。
深拷贝:啥都拷贝了,包括对象和对象里的元素,深拷贝的新对象和原对象没关系了。
再回头来看,可以把指针当做引用,那么当a=b时,被引用的那个对象的引用计数加一,有a和b两个。当a和b都没有时,对象因为引用计数变成0,根据python垃圾回收机制,对象会被清空。所以在操作dataframe格式,删除某一列时,需要将它进行备份,要不然通过df.drop['name',axis = ]后,被删除的那一列没有引用了,引用计数减一等于0,就被清除了。