【Python笔记】从一段Bug代码来理解Python的Naming Rule

本文通过一段简化的Bug代码,深入探讨Python的Naming Rule。代码中`b_dict[sk] = sv`导致对`b_dict`的操作实际上影响了`a_dict`,因为`sv`与`a_dict`关联。此行为符合Python的命名和绑定规则,但可能违背程序员的直觉。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从Python文档关于Naming and binding的说明可知,变量名是绑定到具体对象的,从这点来看,可以把它理解为C++中的引用。考虑下面两行语句:
a = 'test'
a = 'test_ext'
第1行执行后,Python解释器会在内存中创建string类型的对象'test',这个对象一旦创建就不能再修改其值。赋值符号只是将变量名a绑定到这个对象上而已。
第2行执行后,同理,值为'test_ext'的string对象被创建出来,变量名a重新绑定到这个新对象上。此时,'test'对象已经无法通过a访问到了。
再次强调:这两行语句的行为与C/C++中的行为完全不同!在C语言中,int a = 1执行后,会创建出名为a且大小为sizeof(int)的内存单元(当然,由于编译器会对内存做alinging优化,所以实际申请的内存大小可能不只sizeof(int)),该内存单元存放int值1,而 a = 2执行后,a代表的内存单元地址不变,其值更新为2。

关于上述Python Naming Rule的行为,我之前写过一篇笔记简单分析过,这里不再赘述。

上述规则单独拿出来分析是容易理解的,但在实际工程项目中,很可能由于疏忽这种“赋值即绑定”的特性给代码引入Bug(有经验的C/C++码农写Python代码时很容易犯这个错误),而这种Bug一旦引入,由于其隐蔽性(因为它隐藏在我(们)认为最不可能出错的地方),想要在成千上万行代码中快速定位是很费时的。是的,Bug就在那里,可偏偏看不出来到底是哪行代码引入的,想想就有点抓狂。。。

本篇笔记的目的就是通过一段简化的Bug代码来加深对这个Naming Rule的理解。

直接上代码(含bug):
#!/bin/env python
#-*- encoding: utf-8 -*-

def test():
    a_dict = {'a1' : {'s1' : ['foo']}, 'a2' : {'s1' : ['bar']}}
    b_dict = {}
    print 'begin: a_dict=%s' % (a_dict)
    print 'begin: b_dict=%s' % (b_dict)
    for k in a_dict.keys():
        for sk, sv in a_dict[k].items():
            if sk in b_dict:
                b_dict[sk].append(sv)
                b_dict[sk].append('addition')
            else:
                b_dict[sk] = sv
    print 'end: a_dict=%s' % (a_dict)
    print 'end: b_dict=%s' % (b_dict)

    return 0

if '__main__' == __name__:
    test()
上面代码片段的本意是想通过a_dict来构造b_dict,具体而言,a_dict是个2级dict结构,其第2级dict的key作为b_dict的key,若a_dict中存在相同的2级key,则它们的value做merge成list后再append一个'addition'元素,这个最终的list作为b_dict在该2级key下的value。
我们可以思考一下上述代码的执行结果,然后跟实际的运行结果做对比:
begin: a_dict={'a1': {'s1': ['foo']}, 'a2': {'s1': ['bar']}}
begin: b_dict={}
end: a_dict={'a1': {'s1': ['foo', ['bar'], 'addition']}, 'a2': {'s1': ['bar']}}
end: b_dict={'s1': ['foo', ['bar'], 'addition']}
注意上述结果中, a_dict的值也被改变了,这明显不是预期的行为!可见,上述代码确实是有Bug的。
有Bug没关系,可问题的关键是,到底是哪行语句引入的坑呢?(如果不看本文后续解释,大家可以快速定位到问题根源么)

没错,就是b_dict[sk] = sv这句(第15行),它的实际行为是将b_dict[sk]绑定到sv这个结构上,而sv是与a_dict关联的,所以对b_dict[sk]做的append操作相当于通过"引用"直接操作a_dict的内容!这种行为是符合Python Naming Rule的,只是不符合我们的预期。。。

上面的代码还说明,dict的kesy()/values()/items()方法返回的list与dict本身存在绑定关系(即不是通过“深拷贝”生成list),修改返回的list时,dict原来的内容也会被更新。
可以用更简化的例子来验证这个结论:
>>> a = {'k1' : ['v1'], 'k2' : ['v2']}
>>> a.items()
[('k2', ['v2']), ('k1', ['v1'])]  ## 初始时,a.items()的内容
>>> id(a.items())  
140251308636208
>>> x = a.items()
>>> id(x)
140251308636352  ## 由于items()每次返回一个新list,所以id(x)与id(a.items())值不一致是可以理解的,如果值一样也只是巧合
>>> x
[('k2', ['v2']), ('k1', ['v1'])]  
>>> id(x[0][1])  
140251308636136
>>> id(a.items()[0][1])
140251308636136
>>> id(a['k2'])
140251308636136  ## 特别注意,a['k2']与x[0][1]的id值是一样的,说明它们指向相同的内存地址
>>> x[0][1].append('test')
>>> a
{'k2': ['v2', 'test'], 'k1': ['v1']}  ## 通过x修改内容后,a的内容也被修改了!
从上面两端代码实例的分析可看到, Bug的根源是:赋值操作是绑定变量名与实际对象的过程,而非重新创建并初始化对象的过程。
认识到这一点后,Bug的修复就很简单了。下面是无bug的代码片段:
#!/bin/env python
#-*- encoding: utf-8 -*-

def test():
    a_dict = {'a1' : {'s1' : ['foo']}, 'a2' : {'s1' : ['bar']}}
    b_dict = {}
    print 'begin: a_dict=%s' % (a_dict)
    print 'begin: b_dict=%s' % (b_dict)
    for k in a_dict.keys():
        for sk, sv in a_dict[k].items():
            if sk in b_dict:
                b_dict[sk].append(sv)
                b_dict[sk].append('addition')
            else:
                b_dict[sk] = list(sv)  ## 注意这里通过list()重新创建对象实现了“深拷贝”的效果
    print 'end: a_dict=%s' % (a_dict)
    print 'end: b_dict=%s' % (b_dict)

    return 0

if '__main__' == __name__:
    test()
上面的代码只修改了一处地方(具体见注释),就可以得到符合预期的结果:
begin: a_dict={'a1': {'s1': ['foo']}, 'a2': {'s1': ['bar']}}
begin: b_dict={}
end: a_dict={'a1': {'s1': ['foo']}, 'a2': {'s1': ['bar']}}
end: b_dict={'s1': ['foo', ['bar'], 'addition']}

【参考资料】
PythonDoc: Naming and binding 

==================== EOF ====================


### Pandas 文件格式读写操作教程 #### 1. CSV文件的读取与保存 Pandas 提供了 `read_csv` 方法用于从 CSV 文件中加载数据到 DataFrame 中。同样,也可以使用 `to_csv` 将 DataFrame 数据保存为 CSV 文件。 以下是具体的代码示例: ```python import pandas as pd # 读取CSV文件 df = pd.read_csv('file.csv') # 加载本地CSV文件 [^1] # 保存DataFrame为CSV文件 df.to_csv('output.csv', index=False) # 不保存行索引 [^1] ``` --- #### 2. JSON文件的读取与保存 对于JSON格式的数据,Pandas 支持通过 `read_json` 和 `to_json` 进行读取和存储。无论是本地文件还是远程 URL 都支持。 具体实现如下所示: ```python # 读取本地JSON文件 df = pd.read_json('data.json') # 自动解析为DataFrame对象 [^3] # 从URL读取JSON数据 url = 'https://example.com/data.json' df_url = pd.read_json(url) # 直接从网络地址获取数据 # 保存DataFrame为JSON文件 df.to_json('output.json', orient='records') ``` --- #### 3. Excel文件的读取与保存 针对Excel文件操作Pandas 使用 `read_excel` 来读取 `.xls` 或 `.xlsx` 格式的文件,并提供 `to_excel` 方法导出数据至 Excel 表格。 注意:需要安装额外依赖库 `openpyxl` 或 `xlrd` 才能正常运行这些功能。 ```python # 安装必要模块 (如果尚未安装) !pip install openpyxl xlrd # 读取Excel文件 df_excel = pd.read_excel('file.xlsx', sheet_name='Sheet1') # 导出DataFrame为Excel文件 df.to_excel('output.xlsx', sheet_name='Sheet1', index=False) ``` --- #### 4. SQL数据库的交互 当涉及关系型数据库时,Pandas 可借助 SQLAlchemy 库连接各种类型的数据库(如 SQLite, MySQL)。它允许直接查询并将结果作为 DataFrame 返回;或者反过来把现有 DataFrame 插入到指定表中。 下面是基于SQLite的一个例子: ```python from sqlalchemy import create_engine # 创建引擎实例 engine = create_engine('sqlite:///database.db') # 查询SQL语句并返回DataFrame query = "SELECT name, salary, department FROM employees" sql_df = pd.read_sql(query, engine) # 计算各部门平均工资 avg_salary_by_dept = sql_df.groupby('department')['salary'].mean() # 将DataFrame存回SQL表 avg_salary_by_dept.to_sql(name='average_salaries_per_department', con=engine, if_exists='replace', index=True) ``` 上述片段说明了如何执行基本SQL命令以及后续数据分析流程[^4]。 --- #### 5. 多层次索引(MultiIndex)的应用场景 除了常规单维度索引外,在某些复杂情况下可能需要用到多级索引结构。这时可以依靠 MultiIndex 构建更加灵活的数据模型。 例如定义一个多层列名体系: ```python arrays = [['A','A','B','B'], ['foo','bar','foo','bar']] tuples = list(zip(*arrays)) index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second']) df_multi_indexed = pd.DataFrame([[0,1,2,3], [4,5,6,7]], columns=index) print(df_multi_indexed) ``` 这段脚本演示了怎样构建一个具有双重分类标签的表格布局[^2]。 --- ### 总结 综上所述,Pandas 是一种强大而易用的数据处理工具包,适用于多种常见文件类型之间的相互转换及其高级特性应用开发之中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值