直接看项目结果:
trec06c数据集,数据集压缩包里有“data” 文件夹,“full” 文件夹和 “delay” 文件夹。“data” 文件夹里面包含多个二级文件夹,二级文件夹里面才是垃圾邮件文本,一个文本代表一份邮件。“full” 文件夹里有一个 index 文件,该文件记录的是各邮件文本的标签。spam是垃圾邮件,ham是正常邮件

代码:
import pandas as pd
impo
trec06c数据集,数据集压缩包里有“data” 文件夹,“full” 文件夹和 “delay” 文件夹。“data” 文件夹里面包含多个二级文件夹,二级文件夹里面才是垃圾邮件文本,一个文本代表一份邮件。“full” 文件夹里有一个 index 文件,该文件记录的是各邮件文本的标签。spam是垃圾邮件,ham是正常邮件
import pandas as pd
impo