解决pd.read_json报错ValueError: Trailing data问题

最新推荐文章于 2024-05-29 10:13:53 发布

原创最新推荐文章于 2024-05-29 10:13:53 发布 · 2.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#json #python #开发语言

Python 专栏收录该内容

465 篇文章 ¥39.90 ¥99.00

订阅专栏

在Python中使用pandas的read_json读取JSON数据时，可能会遇到ValueError: Trailing data错误，这通常是因为JSON格式不规范。解决方法是在调用read_json时添加errors='ignore'参数，忽略不规范数据。

解决pd.read_json报错ValueError: Trailing data问题

在使用Python进行数据处理中，我们经常需要将JSON格式的数据读入到DataFrame中进行处理。而使用pandas库的read_json函数，就可以方便地将JSON数据读入到DataFrame中。但是有时候在读取JSON数据时，会遇到一个非常常见的错误：ValueError: Trailing data。这个错误通常是由于JSON文件格式不规范或者结构混乱所致。

这个错误的解决方案并不难，只需要在read_json中添加一个参数即可。具体方法如下：

import pandas as pd

filename = "data.json"
with open(filename, 'r') as<

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

UIEdit

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

pd.read_json出现ValueError:Trailing data的解决方案

weixin_43178406的博客

03-29

10万+

本文主要介绍了在使用pandas读取json文件时出现ValueError:Trailing data的解决方案，希望能够对使用pandas的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

pd.read_json出现“Trailing data“的解决方案

CyberNerdX的博客

09-05

1014

当使用函数读取JSON文件时，如果遇到"Trailing data"错误，表示在JSON文件中存在额外的数据，导致无法正确解析。1. 检查JSON文件格式：首先，确保JSON文件的格式是正确的，它应该是一个有效的JSON对象，而不是多个JSON对象的集合。可以使用在线JSON验证工具或Python的json模块进行验证。try:print("JSON文件格式正确。")print("JSON文件格式错误：", e)# 调用验证函数2. 分批读取JSON文件。

参与评论您还未登录，请先登录后发表或查看评论

pandas read_json时ValueError: Expected object or value的解决方案

热门推荐

weixin_43178406的博客

10-05

4万+

本文主要介绍了pandas read_json时ValueError: Expected object or value的解决方案，希望能对学习python的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

pandas读取json格式log文件，报错：ValueError: Trailing data

qq_45993667的博客

09-24

1219

json格式文件是按行存储数据，使用pandas的read_json()读取json格式文件时，没有在read_json()中指定参数"lines"为"True";

Pandas read_json()时报错ValueError: Trailing data

Duke_LH的博客

12-01

3万+

有一份json格式的文件，如下： { "cover": "http://p2.music.126.net/wsPS7l8JZ3EAOvlaJPWW-w==/109951163393967421.jpg?param=140y140", "title": "2018上半年最热新歌TOP50", "author": &amp

data = pd.read_json("esdao.split-0.json") data.to_csv("data1.csv", index=False) # 读取json文件 data = pd.read_json("esdao.split-0.json") # 将数据转换为csv文件并保存 data.to_csv("data1.csv", index=False) # 读取json文件 data = pd.read_json("esdao.split-0.json") # 将数据转换为csv文件并保存 data.to_csv("data1.csv", index=False) data = pd.read_json("esdao.split-0.json") data.to_csv("data1.csv", index=False)报错ValueError: Trailing data

07-11

3. 如果以上方法仍然无法解决问题，你可以尝试使用其他JSON解析库，如`jsonlines`或`ijson`来读取大型JSON文件，这些库可以更好地处理大型或格式复杂的JSON文件。希望这些方法能够帮助你解决问题！如果还有其他...

# 3. 从JSONL文件加载数据集 dataset = load_dataset("json", data_files="train_data.jsonl")["train"] # 加载JSONL文件 # Tokenize 数据 def tokenize_function(examples): prompts = [] responses = [] for msg_list in examples["message"]: # 拼接对话历史 prompt = "" response = "" for msg in msg_list: if msg["role"] == "user": prompt += f"用户: {msg['content']}\n" # 累加用户消息 else: response = msg["content"] # 最后一条助手消息作为目标输出 # 构建最终提示（用户消息 + 助手回复前缀） prompts.append(prompt + "助手:") responses.append(response) # 处理输入和标签 model_inputs = tokenizer(prompts, max_length=512, truncation=True, padding=True) labels = tokenizer(responses, max_length=128, truncation=True, padding=True)["input_ids"] # 掩盖输入部分的标签（仅计算助手回复的loss） model_inputs["labels"] = [ [-100] * (len(input_ids) - len(label)) + label for input_ids, label in zip(model_inputs["input_ids"], labels) ] return model_inputs tokenized_dataset = dataset.map(tokenize_function, batched=True) Generating train split: 0 examples [00:00, ? examples/s]Failed to load JSON from file 'F:\Programmer\python\MyAI\train_data.jsonl' with error <class 'pyarrow.lib.ArrowInvalid'>: JSON parse error: Invalid value. in row 14 Generating train split: 0 examples [00:00, ? examples/s] --------------------------------------------------------------------------- ValueError Traceback (most recent call last) File e:\Python311\python11\Lib\site-packages\datasets\packaged_modules\json\json.py:174, in Json._generate_tables(self, files) 171 with open( 172 file, encoding=self.config.encoding, errors=self.config.encoding_errors 173 ) as f: --> 174 df = pandas_read_json(f) 175 except ValueError: File e:\Python311\python11\Lib\site-packages\datasets\packaged_modules\json\json.py:38, in pandas_read_json(path_or_buf, **kwargs) 37 kwargs["dtype_backend"] = "pyarrow" ---> 38 return pd.read_json(path_or_buf, **kwargs) File e:\Python311\python11\Lib\site-packages\pandas\io\json\_json.py:815, in read_json(path_or_buf, orient, typ, dtype, convert_axes, convert_dates, keep_default_dates, precise_float, date_unit, encoding, encoding_errors, lines, chunksize, compression, nrows, storage_options, dtype_backend, engine) 814 else: --> 815 return json_reader.read() File e:\Python311\python11\Lib\site-packages\pandas\io\json\_json.py:1014, in JsonReader.read(self) 1013 else: -> 1014 obj = self._get_object_parser(self.data) 1015 if self.dtype_backend is not lib.no_default: File e:\Python311\python11\Lib\site-packages\pandas\io\json\_json.py:1040, in JsonReader._get_object_parser(self, json) 1039 if typ == "frame": -> 1040 obj = FrameParser(json, **kwargs).parse() 1042 if typ == "series" or obj is None: File e:\Python311\python11\Lib\site-packages\pandas\io\json\_json.py:1176, in Parser.parse(self) 1174 @final 1175 def parse(self): -> 1176 self._parse() 1178 if self.obj is None: File e:\Python311\python11\Lib\site-packages\pandas\io\json\_json.py:1392, in FrameParser._parse(self) 1390 if orient == "columns": 1391 self.obj = DataFrame( -> 1392 ujson_loads(json, precise_float=self.precise_float), dtype=None 1393 ) 1394 elif orient == "split": ValueError: Trailing data During handling of the above exception, another exception occurred: ArrowInvalid Traceback (most recent call last) File e:\Python311\python11\Lib\site-packages\datasets\builder.py:1818, in ArrowBasedBuilder._prepare_split_single(self, gen_kwargs, fpath, file_format, max_shard_size, job_id) 1817 _time = time.time() -> 1818 for _, table in generator: 1819 if max_shard_size is not None and writer._num_bytes > max_shard_size: File e:\Python311\python11\Lib\site-packages\datasets\packaged_modules\json\json.py:177, in Json._generate_tables(self, files) 176 logger.error(f"Failed to load JSON from file '{file}' with error {type(e)}: {e}") --> 177 raise e 178 if df.columns.tolist() == [0]: File e:\Python311\python11\Lib\site-packages\datasets\packaged_modules\json\json.py:151, in Json._generate_tables(self, files) 150 try: --> 151 pa_table = paj.read_json( 152 io.BytesIO(batch), read_options=paj.ReadOptions(block_size=block_size) 153 ) 154 break File e:\Python311\python11\Lib\site-packages\pyarrow\_json.pyx:342, in pyarrow._json.read_json() File e:\Python311\python11\Lib\site-packages\pyarrow\error.pxi:155, in pyarrow.lib.pyarrow_internal_check_status() File e:\Python311\python11\Lib\site-packages\pyarrow\error.pxi:92, in pyarrow.lib.check_status() ArrowInvalid: JSON parse error: Invalid value. in row 14 The above exception was the direct cause of the following exception: DatasetGenerationError Traceback (most recent call last) Cell In[4], line 2 1 # 3. 从JSONL文件加载数据集 ----> 2 dataset = load_dataset("json", data_files="train_data.jsonl")["train"] # 加载JSONL文件 4 # Tokenize 数据 5 def tokenize_function(examples): File e:\Python311\python11\Lib\site-packages\datasets\load.py:1417, in load_dataset(path, name, data_dir, data_files, split, cache_dir, features, download_config, download_mode, verification_mode, keep_in_memory, save_infos, revision, token, streaming, num_proc, storage_options, **config_kwargs) 1414 return builder_instance.as_streaming_dataset(split=split) 1416 # Download and prepare data -> 1417 builder_instance.download_and_prepare( 1418 download_config=download_config, 1419 download_mode=download_mode, 1420 verification_mode=verification_mode, 1421 num_proc=num_proc, 1422 storage_options=storage_options, 1423 ) 1425 # Build dataset for splits 1426 keep_in_memory = ( 1427 keep_in_memory if keep_in_memory is not None else is_small_dataset(builder_instance.info.dataset_size) 1428 ) File e:\Python311\python11\Lib\site-packages\datasets\builder.py:897, in DatasetBuilder.download_and_prepare(self, output_dir, download_config, download_mode, verification_mode, dl_manager, base_path, file_format, max_shard_size, num_proc, storage_options, **download_and_prepare_kwargs) 895 if num_proc is not None: 896 prepare_split_kwargs["num_proc"] = num_proc --> 897 self._download_and_prepare( 898 dl_manager=dl_manager, 899 verification_mode=verification_mode, 900 **prepare_split_kwargs, 901 **download_and_prepare_kwargs, 902 ) 903 # Sync info 904 self.info.dataset_size = sum(split.num_bytes for split in self.info.splits.values()) File e:\Python311\python11\Lib\site-packages\datasets\builder.py:973, in DatasetBuilder._download_and_prepare(self, dl_manager, verification_mode, **prepare_split_kwargs) 969 split_dict.add(split_generator.split_info) 971 try: 972 # Prepare split will record examples associated to the split --> 973 self._prepare_split(split_generator, **prepare_split_kwargs) 974 except OSError as e: 975 raise OSError( 976 "Cannot find data file. " 977 + (self.manual_download_instructions or "") 978 + "\nOriginal error:\n" 979 + str(e) 980 ) from None File e:\Python311\python11\Lib\site-packages\datasets\builder.py:1705, in ArrowBasedBuilder._prepare_split(self, split_generator, file_format, num_proc, max_shard_size) 1703 job_id = 0 1704 with pbar: -> 1705 for job_id, done, content in self._prepare_split_single( 1706 gen_kwargs=gen_kwargs, job_id=job_id, **_prepare_split_args 1707 ): 1708 if done: 1709 result = content File e:\Python311\python11\Lib\site-packages\datasets\builder.py:1861, in ArrowBasedBuilder._prepare_split_single(self, gen_kwargs, fpath, file_format, max_shard_size, job_id) 1859 if isinstance(e, DatasetGenerationError): 1860 raise -> 1861 raise DatasetGenerationError("An error occurred while generating the dataset") from e 1863 yield job_id, True, (total_num_examples, total_num_bytes, writer._features, num_shards, shard_lengths) DatasetGenerationError: An error occurred while generating the dataset

最新发布

11-25

说明你的 `train_data.jsonl` 文件 **不是标准的 JSONL 格式**，导致 Hugging Face 的 `datasets.load_dataset()` 加载失败。 --- ## 错误原因分析 ### ❌ 问题 1：文件看似是 `.jsonl`，但实际上是多个 JSON ...

laravel Trailing data 问题解决

rzfanfan的博客

05-25

1455

laravel Trailing data 问题解决出现此问题一般是由于相关数据模型中created_at 的时间格式不正确导致的比如 protected $table = 'ptn_apply_list'; public $timestamps = true; protected $dateFormat = 'U'; protected $guarded = []; 把其中的 protected $dateFormat = ‘U’;注释掉即可这是由于我存储的数据格式 .

pd.read_json 匪夷所思的替换

qq_29663489的博客

05-13

2089

先上问题 j_index='{"0":{"a":1,"b":2},"1s":{"a":1,"b":2}}' j_index3="{'0':{'a':1,'b':2},'1':{'a':1,'b':2}}" 意思差不多就是j_index 和j_index3 是不同的，一定要区分' 和" 下面是转载别人记录的read_json 常用用法 'records': list like[{column->value},...,{column->value}]...

CNTK-106 Part A:ValueError

风云爱飞

03-14

595

教材网址：https://cntk.ai/pythondocs/CNTK_106A_LSTM_Timeseries_with_Simulated_Data.html编程系统：windows7开发语言： python2.7 在运行CNTK-106 PartA出现了错误：Traceback (most recent calllast):File"E:\ProgramLib\Python\CN...

【Pandas】深入解析`pd.read_json()`函数

qq_38614074的博客

05-29

2991

函数是Pandas库中用于读取JSON格式数据并转换为DataFrame对象的函数。它支持多种JSON数据格式，包括JSON字符串、JSON文件、URL指向的JSON数据等。通过调整函数的参数，我们可以控制数据的读取方式和处理细节。函数是Pandas库中用于读取JSON数据的重要工具。通过灵活使用其参数，我们可以有效地处理各种复杂结构和格式的JSON数据。无论是从文件中读取JSON数据，还是处理JSON字符串，都能为我们提供极大的便利。希望本文的解析和案例能够帮助你更好地理解和使用这个函数。

56_Pandas读取 JSON 字符串/文件 (read_json)

qq_18351157的博客

01-04

1万+

使用pandas.read_json()函数，可以将JSON格式字符串（str类型）和文件读取为pandas.DataFrame。它还支持 JSON 行 (.jsonl)。读取成pandas.DataFrame后，可以做各种数据分析，也可以用to_csv()方法保存成csv文件，这样就可以很方便的通过pandas将JSON文件转为CSV文件。在此，对以下内容进行说明。

Python中处理JSON文件（json和pandas方式）

qq_40671063的博客

07-24

6719

Python中处理JSON文件（json和pandas方式）

Python3常用代码块汇总

大巧不工

03-14

4697

本文章主要用于平时Python3学习和使用中积累的比较常用的代码块。代码都是经过验证可行的。基本数据类型字符串字符串常识：可以利用反斜杠（\）对双引号转义："，或者用单引号引起这个字符串。例如：‘I l"o"ve fishc.com’ 字符串支持分片，如：Str1[:6] 返回字符串前6个字符，0-5 index 字符串的方法（都要用dot）,返回一个新的字符串，原来不变。例如字符串...

【pandas】read_json的时候报错: valueerror expected object or value

apple_50678962的博客

06-28

7590

pd.read_json() 出现 valueerror expected object or value 报错的解决方法

pandas read_json报错ValueError: If using all scalar values, you must pass an index；pickle文件读取

weixin_42357472的博客

11-23

1598

添加typ='series’即可参考：https://www.pythonheidong.com/blog/article/298548/25b1be309679dc8e1e9b/ pd.read_json(a, typ='series')

pandas读取json文件报错

slq1023的博客

01-04

3963

昨天还运行的好好的代码，今天就报错。代码如下: importpandasaspd importjson result ='result.json' df=pd.read_json(result) print(df.category.value_counts()) 先是报了个 ValueError: Expected object or value 百度了很...

pandas 1.1.3读取json报错ValueError: Protocol not known解决办法

qq814889301的博客

11-10

4332

这里写自定义目录标题pandas 1.1.3读取json报错解决办法现象原因根本原因（猜测）解决办法 pandas 1.1.3读取json报错解决办法现象使用pandas 从网络中读取json时，报错 ValueError: Protocol not known: 原因 json里有参数值是"https://www.biadu.com"，也就是说json里含有 // 。当把 // 这类参数值删除后，pd.read_json(json_demo) 正常。根本原因（猜测） Pandas 1.X中的

【原创】Pandas读取json/csv提示ValueError: Expected object or value（从本人简书博客移入）

积跬步,至千里,读万卷书,行万里路,阅代码,改bug,畅谈天下,指点江山

08-30

3379

问题产生的原因: pandas不支持utf-8 with BOM的文件, 支持的是UTF-8 不带BOM文件解决方法: 以Notepad++为例深入研究下 utf-8 with BOM文件和UTF-8 不带BOM文件的区别: 先了解下BOM百度百科(https://baike.baidu.com/item/BOM/2790401) 2.总结来说: 微软在自己家的windows系统用记事本建utf-8文件, 喜欢加个"U+FEFF"标记, 来标示该文件是UTF-8文件, 然而其他公司都不认同, 大家

torch.cuda.set_device报错 ValueError: Expected a cuda device, but got: cpu

07-19

input_data = torch.randn(1, 10).to(device) output = model(input_data) print(output) ``` ### 总结该错误的核心在于设备类型不匹配，`torch.cuda.set_device` 要求使用 CUDA 设备。通过检查设备可用性并确保...