Python 数据分析：DataFrame，有无空值？有几个？

原创于 2025-07-05 23:21:34 发布 · 1k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #开发语言 #pandas #numpy #数据挖掘

DataFrame 专栏收录该内容

14 篇文章

订阅专栏

1 示例代码

直接上代码。

def dframe1():
    """
    Python 数据分析：DataFrame，有无空值？有几个？
    """
    """
    使用字典生成 df
    """
    df = pd.DataFrame({
                        '语文':[110, 109, 99],
                        '数学':[105, 88, 115],
                        '英语':[109, 120, 130],
                        '班级':'高一7班'
                       },index=["张三", "李四", "王五"])
    # ~ print(df)
    """
          语文  数学  英语     班级
    张三   110   105   109  高一7班
    李四   109    88   120  高一7班
    王五    99   115   130  高一7班
    """
    """
    做个空值
    """
    df.loc["李四", "英语"] = None
    # ~ print(df)
    """
          语文  数学   英语     班级
    张三   110   105  109.0  高一7班
    李四   109    88    NaN  高一7班
    王五    99   115  130.0  高一7班
    """
    """
    为什么其他人的英语成绩都变成浮点数了？
    整数没有缺失值的概念，NaN = not a number，是浮点数的特殊值。
    设置“李四”的“英语”成绩为 NaN 后，整个“英语”列都变成浮点数了。
    也可以使用 np.nan 设置。
    """
    df.loc["张三", "数学"] = np.nan
    # ~ print(df)
    """
          语文   数学   英语     班级
    张三   110    NaN  109.0  高一7班
    李四   109   88.0    NaN  高一7班
    王五    99  115.0  130.0  高一7班
    """
    """
    看有无空值
    """
    df1 = df.isnull()
    # ~ print(df1)
    """
           语文   数学   英语   班级
    张三  False   True  False  False
    李四  False  False   True  False
    王五  False  False  False  False
    """
    # ~ print(df.isnull().values.any())
    """
    将布尔矩阵转换为 NumPy 数组后检测是否存在 True 。
    .any()，有一个 True 就返回 True 。
    """
    """
    True
    """
    """
    每列有多少个空值？

    """
    missing_per_col = df.isnull().sum()
    # ~ print(missing_per_col)
    """
    语文    0
    数学    1
    英语    1
    班级    0
    dtype: int64
    很明显这是个 Series 类型的数据，想取“数学”列的缺失值有多少个也很简单：
    """
    # ~ print(missing_per_col["数学"])
    """
    1
    """
    """
    按行计算缺失值数量
    """
    missing_per_row = df.isnull().sum(axis=1)
    print(missing_per_row)
    """
    张三    1
    李四    1
    王五    0
    dtype: int64
    """
    """
    axis=1 不是列吗？怎么给出的结果是行的数据？
    你看，DataFrame 的形状(m, n)，m 是行，n 是列，没错吧？
    m 对应 axis=0 ，n 对应 axis=1 ，对吧？
    axis=1 就是列啊，哪里不对？
    说 axis=1 是列，这里有误区。
    DataFrame 中的 axis 继承自 numpy ，本质相同。
    但 DataFrame 只有两维，比 numpy 更简单。
    可以用“df.shape”取其形状元组，得到：(行数, 列数)，如：(10, 5)。
    十行五列。
    axis=0 对应的形状是 10 ，对应“行”，但不能说它就是行。
    axis=1 对应的形状是 5 ，对应“列”，但不能说它就是列。
    axis 表示的不是“静态维度”，而是“操作方向”。
    """
    """
    其实既不是行也不是列。
    axis 继承自 numpy ，但比 numpy 中的 axis 更简单。
    DataFrame 是二维表格结构，只有 axis=0/1 两种。
    通过 dp.shape 可取回 DataFrame 形状元组，模型为(行数, 列数)，如：(10, 5)。
    哪个对应 axis=0 ？和 numpy 一样，形状元组最左边的数字，10 。
    哪个对应 axis=1 ？和 numpy 一样，形状元组左数第二个数字，5 。
    巧了，正好分别对应 DataFrame 的行与列，于是一个误区出现了：axis=0 就是行；axis=1 就是列。
    不对。
    axis 表示的不是“静态维度”，而是“操作方向”。
    看到 axis 应该马上想到动画：
    要么行方向要么列方向。
    这不废话吗，不容易搞清楚的就是行方向和列方向，到底啥是行/列方向？
    加一个字的动词，难题迎刃而解。
    “跨”。
    跨行方向：跨嘛，一行一行往下。跟行有关，定义为该方向 axis=0 。
    但你发现没，一行一行往下，如果从第一行找个点、最后一行找个点，连起来，表示一下这个方向，它其实是列向量方向？
    对，axis=0 操作列向量。
    跨列方向：跨嘛，一列一列往右。跟列有关，定义为该方向 axis=1 。
    但你发现没，一列一列往右，如果从第一列找个点、最后一列找个点，连起来，表示一下这个方向，它其实是行向量方向？
    对，axis=1 操作行向量。
    说一下怎么都忘不了、记不混的记忆方法：
    (m, n) → m行n列 → m axis=0 → 行，不是，跨行 → 一行行向下 → 列向量（零列）
    (m, n) → m行n列 → n axis=1 → 列，不是，跨列 → 一列列向右 → 行向量（一行）
    实在记不住的话，死记：零列一行 → 凛冽一航 → 卓一航冒着凛冽的寒风去找练霓裳（梁羽生：《白发魔女传》）
    记住这些以下示例就很容易理解了，计算“物理”总分。
    “物理”列，想求“物理”总分就得操作“物理”列向量，凛冽。凛，零。
    """
    data = [[81, 72, 93], [64, 45, 36], [79, 78, 99]]
    df = pd.DataFrame(data=data, columns=["物理", "化学", "生物"])
    print(df)
    """
       物理  化学  生物
    0    81    72    93
    1    64    45    36
    2    79    78    99
    """
    phys = df["物理"].sum(axis=0)
    print(phys)
    """
    224
    """
    """
    我们给行搞成标签索引。
    """
    df.index = ["张三", "李四", "王五"]
    print(df)
    """
          物理  化学  生物
    张三    81    72    93
    李四    64    45    36
    王五    79    78    99
    """
    """
    计算“张三”三门课总成绩。
    参照上边成功的：phys = df["物理"].sum(axis=0)
    先选“物理”列，再 .sum() ，同时指定维度。
    不就是计算 81+72+93 ，这是操作行向量，卓一航，一行，一，1

    """
    # ~ zhans = df.loc["张三"].sum(axis=1)
    # ~ print(zhans)
    """
    ValueError: No axis named 1 for object type Series
    """
    """
    what?
    没有 axis=1 ？
    等等，Series ？
    我好像明白了。
    """
    s = df.loc["张三"]
    print(s)
    """
    物理    81
    化学    72
    生物    93
    Name: 张三, dtype: int64
    """
    """
    果然，这样得到的是一个 Series 类型的数据，只有一维，所以哪来的 axis=1 。
    这时候想求“张三”三门课的总成绩，只能写：
    """
    zhangs = s.sum(axis=0)
    print(zhangs)
    """
    246
    """
    """
    完了，疯了，那之前还说“一行”？又不用 1 ？
    用先取回一行或一列，得到 Series 再用 .sum() 的思路，最终 .sum() 的参数永远不可能是 axis=1 。
    求“物理”那个只是碰巧做对了。
    怎么才对？
    其实不是说上边的方法不行，完全可行。
    先取行或先取列，再求和或进行其它操作，完全没问题，思路也清晰。
    如此 .sum() 得到的结果为标量。
    而且永远不用考虑 axis 等于几，只能等于 0 ，甚至可以忽略不写。
    我们看看什么时候用到 axis=1 。
    """
    s = df.sum(axis=1)
    """
    这就完了？对，就这么简单，这不就用上了？
    """
    print(s)
    """
    张三    246
    李四    145
    王五    256
    dtype: int64
    """
    """
    输出了：张三总分、李四总分、王五总分。
    此时 .sum() 得到的结果为 Series 数据类型。
    再求张三部分就简单了啊：
    """
    print(s["张三"])
    """
    246
    """
    """
    看到了吧，df.sum(axis=1)，就是对 df 整体、逐行计算各行全列总和。
    想要某具体数据，再从结果中剥离。
    和先取行或列，再应用 .sum() 其实殊途同归。
    """
    """
    df.sum(axis=0)
    输出：物理列总和、化学列总和、生物列总和。
    求物理列总和可以这样写：df.sum(axis=0)["物理"]
    """
    print(df.sum(axis=0)["物理"])
    """
    224
    """
    """
    df.concat() 等但凡涉及 axis=0/1 设置的动词，都可以使用“凛冽/一航”谐音记忆。
    从理解角度就是加动词“跨”：几行几列/跨行跨列。
    """
    """
    看到这里，就能非常容易地理解下边这句了吧？
    missing_per_row = df.isnull().sum(axis=1)
    意思就是逐行看看有没有空值。
    """
# ~ dframe1()

2 欢迎纠错

欢迎纠错，随时更新。
联系方式：评论、私信，或企鹅：179 0042 182 。

3 论文写作/Python 学习智能体

https://chatglm.cn/share/WF2C5ree

以下关于 Markdown 编辑器

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

++ 新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

++ 功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

++ 合理的创建标题，有助于目录的生成

直接输入1次+，并按下space后，将生成1级标题。
输入2次+，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

++ 如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

++ 插入链接与图片

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

++ 如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

++ 生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

++ 创建一个表格
一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

+++ 设定内容居中、居左、居右
使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

+++ SmartyPants
SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash