数据集网址如下:leaf/data/shakespeare at master · TalwalkarLab/leaf · GitHub
目前直接按照教程来操作的话,会出现404错误。
为解决该问题,可以下载源文件raw_data.txt,之后就可以继续划分,也就是跳过了wget这一步。
由于电脑设置,需要把整个文件中的命令从python3转化为python,之后按照教程运行./preprocess.sh -s niid --sf 0.2 -k 0 -t sample -tf 0.8即可划分数据集。
例如,以niid方式采样10个客户端 ./preprocess.sh -s niid --sf 0.0233 -t sample -tf 0.8 --iu 10 --k 64