Pandas read_json()时报错ValueError: Trailing data

最新推荐文章于 2024-04-23 20:58:12 发布

原创最新推荐文章于 2024-04-23 20:58:12 发布 · 3.3w 阅读

43 ·

CC 4.0 BY-SA版权

文章标签：

#Python #Pandas #read_json

python 专栏收录该内容

4 篇文章

订阅专栏

本文解决了一个常见的JSON格式错误问题，详细介绍了如何将多个独立的JSON对象正确地组织成一个数组或通过设置pd.read_json参数lines=True来逐行读取。这对于处理包含多个JSON对象的数据文件特别有用。

有一份json格式的文件，如下：

{
  "cover": "http://p2.music.126.net/wsPS7l8JZ3EAOvlaJPWW-w==/109951163393967421.jpg?param=140y140",
  "title": "2018上半年最热新歌TOP50",
  "author": "网易云音乐",
  "times": "1264万",
  "url": "https://music.163.com/playlist?id=2303649893",
  "id": "2303649893"
}
{
  "cover": "http://p2.music.126.net/wpahk9cQCDtdzJPE52EzJQ==/109951163271025942.jpg?param=140y140",
  "title": "你的青春里有没有属于你的一首歌？",
  "author": "mayuko然",
  "times": "4576万",
  "url": "https://music.163.com/playlist?id=2201879658",
  "id": "2201879658"
}

当我尝试用pd.read_json('data.json') 读取文件时，给我报错了，报错部分情况如下：

File "D:\python\lib\site-packages\pandas\io\json\json.py", line 853, in _parse_no_numpy
    loads(json, precise_float=self.precise_float), dtype=None)
ValueError: Trailing data

一顿百度后发现原来是 json 格式错误问题，也是头一回知道有 jsonviewer 这种东西。需要将文件里面的字典作为元素保存在列表当中才行，修改后如下。

[{
  "cover": "http://p2.music.126.net/wsPS7l8JZ3EAOvlaJPWW-w==/109951163393967421.jpg?param=140y140",
  "title": "2018上半年最热新歌TOP50",
  "author": "网易云音乐",
  "times": "1264万",
  "url": "https://music.163.com/playlist?id=2303649893",
  "id": "2303649893"
},
{
  "cover": "http://p2.music.126.net/wpahk9cQCDtdzJPE52EzJQ==/109951163271025942.jpg?param=140y140",
  "title": "你的青春里有没有属于你的一首歌？",
  "author": "mayuko然",
  "times": "4576万",
  "url": "https://music.163.com/playlist?id=2201879658",
  "id": "2201879658"
}]

还有另外一种方法就是文件的每一行为一个完整的字典，然后在函数中修改参数pd.read_json('data.json',lines=True)。lines 默认为 False ，设为 True后可以按行读取 json 对象。在 pandas.read_json 文档中是这样说明的：

lines : boolean, default False. Read the file as a json object perline.New in version 0.19.0.

修改后的 json 文件如下：

{"cover": "http://p2.music.126.net/wsPS7l8JZ3EAOvlaJPWW-w==/109951163393967421.jpg?param=140y140","title": "2018上半年最热新歌TOP50","author": "网易云音乐","times": "1264万","url": "https://music.163.com/playlist?id=2303649893","id": "2303649893"}
{"cover": "http://p2.music.126.net/wpahk9cQCDtdzJPE52EzJQ==/109951163271025942.jpg?param=140y140","title": "你的青春里有没有属于你的一首歌？","author": "mayuko然","times": "4576万","url": "https://music.163.com/playlist?id=2201879658","id": "2201879658"}

20 条评论

用吉他弹奏摇滚乐 2023.05.19
谢谢博主分享，好人一生平安！

m0_55262574 2022.06.13
为啥我加了那个也是报错的

Emotiona1 2022.04.02
为啥我也加了那个lines=True还是报错，有点崩溃，[face]emoji:010.png[/face]

徐zeva 2022.03.21
谢谢有用，原来是格式不对的问题

Hal-le-lu-jah 2021.10.15
严重误解的地方："需要将文件里面的字典作为元素保存在列表当中才行"；语句非常不严谨，应该说是将文件里面的json对象保存在列表中，你那个说法让人看了还以为要先把json对象转成字典。

西瓜银耳红枣汤。 2020.08.04
搞了六小时都没搞出来，总以为是编码的问题。用json.load 一直报错，改用pd.read_json也报错。改了一下line=True就好了。无法看出哪里错了应该是我们对json格式的不熟悉。感谢楼主。让我对json文件的认识又加深了。

芳华9166 2020.02.28
可以，加上参数lines=True 确实能解析json文件了！感谢博主！ [code=python] df = pd.read_json(u"搜索结果-20200227_18.33.04.json", orient='records',lines=True) print df df.to_excel("test.xls",index=False) [/code]
- weixin_42574276回复芳华9166 2021.12.09
  感谢
- weixin_42574276回复芳华9166 2021.12.09
  感谢