Python 数据处理:类、数据质量检查与管道预处理
处理非表格数据结构的类
在数据科学领域,非表格数据(如 JSON 或 XML 文件)越来越常见。JSON 和 XML 的灵活性使组织能够在一个文件中捕捉数据项之间的复杂关系。传统上,处理 JSON 数据时,我们常尝试对其进行规范化,但还有另一种更具优势的方法,即创建类来处理数据。
以克利夫兰艺术博物馆的收藏数据为例,数据包含收藏项、每个收藏项的媒体引用节点以及创作者节点。以下是具体操作步骤:
1. 准备工作 :确保安装了 requests 和 pprint 库,可使用以下命令安装:
pip install requests
pip install pprint
示例 JSON 文件结构如下:
{
"id": 165157,
"title": "Fulton and Nostrand",
"creation_date": "1958",
"citations": [
{
"citation": "Annual Exhibition: Sculpture, Paintings, Watercolors, Drawings,",
"page_number": "Unpaginated, [8],[12]",
"url": null
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



