Python3 Notes

最新推荐文章于 2023-03-14 20:54:57 发布

原创最新推荐文章于 2023-03-14 20:54:57 发布 · 156 阅读

0 ·

CC 4.0 BY-SA版权

这篇博客探讨了Pandas DataFrame的apply()函数及其用途，特别是在处理没有内置函数的情况。提到直接对DataFrame列的操作与在复制的数据框中操作的区别，后者可能导致警告。还提到了Jupyter Notebook的变量缓存问题，以及pd.set_option('precision')对不同类型数据的影响。另外，指出了describe()可能显示不准确的dtype，建议使用info()和dtypes。最后，讨论了DataFrame索引的重复性以及切片后索引的处理。

                    
                    DataFrame的apply()是逐行进行操作，有些函数DataFrame没有，就需要使用apply()，也存在其他情况可以直接操作整列，效果与逐行操作相同。
order['交易时间'] = pd.to_datetime(order['交易时间'])

直接对原数据框的列操作，不会报Warning；但如果是对数据框的copy操作，比如在for循环中，或原数据框切片中，那么会报Warning，提醒你正在对copy进行操作，做出的改变不会影响原数据框。【这是暂时的理解，未必正确】
Jupyter Notebook页面内每次重新运行不会自动清除变量缓存，有时这会引发一些问题。所以经常需要使用“重新运行”，或关闭重开。
pandas的pd.set_option(‘precision’, 3)对float类型是设置小数位数；对object类型的小数，是总位数；对object类型的整数无效。
pandas使用describe()显示的dtype常是错误的，不知为何。使用info()和dtypes是正确的。
DataFrame的index是可以重复的，并非必须唯一性。
DataFrame切片或drop行后，索引不会自动重新生成，使用loc和iloc时需注意。或者根据需要重新生成索引。