29、Python 数据处理：类、数据质量检查与管道预处理

work3

于 2025-10-02 12:01:36 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握数据清洗的艺术文章标签： Python 数据处理类

本文链接：https://blog.youkuaiyun.com/work3/article/details/152425320

掌握数据清洗的艺术专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Python 数据处理：类、数据质量检查与管道预处理

处理非表格数据结构的类

在数据科学领域，非表格数据（如 JSON 或 XML 文件）越来越常见。JSON 和 XML 的灵活性使组织能够在一个文件中捕捉数据项之间的复杂关系。传统上，处理 JSON 数据时，我们常尝试对其进行规范化，但还有另一种更具优势的方法，即创建类来处理数据。

以克利夫兰艺术博物馆的收藏数据为例，数据包含收藏项、每个收藏项的媒体引用节点以及创作者节点。以下是具体操作步骤：
1. 准备工作 ：确保安装了 requests 和 pprint 库，可使用以下命令安装：

pip install requests
pip install pprint

示例 JSON 文件结构如下：

{
    "id": 165157,
    "title": "Fulton and Nostrand",
    "creation_date": "1958",
    "citations": [
        {
            "citation": "Annual Exhibition: Sculpture, Paintings, Watercolors, Drawings,",
            "page_number": "Unpaginated, [8],[12]",
            "url": null