使用datasets.Dataset时报错"找不到指定程序"
import numpy as np
from datasets import Dataset
seq_len, dataset_size = 512, 512
dummy_data = {
"input_ids": np.random.randint(100, 30000, (dataset_size, seq_len)),
"labels": np.random.randint(0, 1, (dataset_size))
}
ds = Dataset.from_dict(dummy_data)
ds.set_format("pt")
这是huggingface官方教程的示例代码,运行后在from datasets import Dataset处报错,原因是pyarrow有问题,没有更新到最新的。
解决方法:
pip uninstall pyarrow
pip install pyarrow
欸,就是重装。