解决dataframe中放到web返回中包含nan和inf导致json序列化报错的问题

原创已于 2023-04-30 20:10:21 修改 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#json #python

于 2022-09-11 10:37:43 首次发布

pandas问题和方法总结专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何在处理Pandas DataFrame中的缺失值NaN和无穷大值inf时，避免序列化失败。通过使用`to_json`方法转换并解析，将这些特殊值转换为可序列化的null和null，简化前端处理。

问题描述

你有个df，里面的数据可能包含NaN和inf等值，要放到json结构体中然后json序列化之后返回给web前端处理

import numpy as np
import pandas as pd


df = pd.DataFrame({"a": [None, np.nan], "b": [2, np.inf]})

print(df)

结构像这样

    a    b
0 NaN  2.0
1 NaN  inf

一般是将df转换为records格式放到返回的结构体中，dumps之后返回：

import numpy as np
import pandas as pd


df = pd.DataFrame({"a": [None, np.nan], "b": [2, np.inf]})

data = df.to_dict(orient="records")
resp = json.dumps({"code": 200, "data": data})
print(resp)

这个结构

{"code": 200, "data": [{"a": NaN, "b": 2.0}, {"a": NaN, "b": Infinity}]}

会在传到前端后会序列化失败

解决方法

实际上，与其做一些各种操作把nan、inf等不合法的字符替换（顺便可能带回一些副作用，比如数值列的nan是无法替换为None的），使用df的to_json方法转换为json之后在解json序列化就能很方便快捷地解决这个问题：

import json

import numpy as np
import pandas as pd


df = pd.DataFrame({"a": [None, np.nan], "b": [2, np.inf]})
df_js = df.to_json(orient="records")
data = json.loads(df_js)
resp = json.dumps({"code": 200, "data": data})
print(resp)

输出

{"code": 200, "data": [{"a": null, "b": 2.0}, {"a": null, "b": null}]}