Pandas - Dataframe 用to_numeric类型转换后比对数据

最新推荐文章于 2025-02-28 10:34:59 发布

原创

最新推荐文章于 2025-02-28 10:34:59 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python

在使用Pandas DataFrame进行数据对比时，遇到String类型转换为object的问题。通过应用`pd.to_numeric`函数，可以将数据转换为数值类型。此函数允许设置参数errors='ignore'，忽略非数字字符串，保持原有数据不变，尤其适用于包含时间类型的数据处理。

用Pandas Dataframe 做数据对比时踩的坑：

1. String 转成 Dataframe后数据类型被置为了object

| cnt  |
| 461  |

expect_table = request.context[entity]
logger.info(f"EXPECTED DATAFRAME: {expect_table}")

for field_count, field in enumerate(datatable.query_table.rows):  # pylint: disable=W0612-
        actualdf = actualdf.append(field, ignore_index=True)

2021-09-13 17:48:49,841 - test.step_defs.test_datalake_steps - INFO - EXPECTED DATAFRAME:    cnt
0  461
2021-09-13 17:48:49,862 - test.step_defs.test_datalake_steps - INFO - Actual DATAFRAME:   cnt
0  461

 Attribute "dtype" are different
E       [left]:  object
E       [right]: int64

2. 用pandas的数据类型转换方法pd.to_numeric解决：

datatable.query_table = parse_str_table(table_with_header)
    expect_table = request.context[entity]
    logger.info(f"EXPECTED DATAFRAME: {expect_table}")
    actualdf = pd.DataFrame()
    for field_count, field in enumer