9.2 输入数据简单处理与NumPy
数据读到 pandas 的 DataFrame 里面以后, 有时要对一个 Series中所有值做些简单 处理。 比如说,对房屋面积这个 Series 中的每个值取个对数 Log值。 这会使用另一个 Python工具包 NumPy 。
import numpy as np
np.log(area)
看到这里,一切显得那么自然,很简单吧。 我问一个问题,为什么pandas 生成的 数据 area 可以直接被另一个 NumPy工具使用? 这么说,有些小白可能不明白。 我问 一个类似的问题。 你听说 Word 软件生成的 DOCX 文件可以用PPT 软件PowerPoint打 开吗? pandas和NumPy可是两个不同的开发团队,完全不同的程序员开发的。 我在这 里其实想说的是,在大部分的软件包之间, 这种方便的数据交换方式是不存在的。1
一个最通常的回答是,它们的数据格式或数据结构不一样。 这时,我们又引出了 另一个所有程序员都耳熟能详的概念, 「数据结构(Data Structure)」。 在大学的 课程里,你可能学的知识点是下面这些: 链表、二叉树、图、排序等等。 你要仔细琢 磨的话, 这和「数据结构」的中文翻译没啥直接联系。 我们在这儿稍微啰嗦两句,讲 讲其背后的思路。 前面在§ 5.1小节中, 我们提到过要数字化这个概念,数据结构是 从数字化那儿来的。 我认为,数据结构这门知识,其实想要解决两个问题。
第一个问题是,现实世界的数字化, 就是如何把现实世界的

本文讨论了在机器学习中如何使用NumPy对pandas DataFrame中的数据进行简单处理,如取对数。作者指出,不同软件包间的数据交换通常不那么顺畅,但pandas和NumPy能够实现这样的交互是因为NumPy内部进行了数据转换。文章强调了数据结构在解决现实世界数字化和数据关联性问题中的重要性,并提醒读者在实际工作中重视数据的前期处理工作。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



