import jieba
import numpy as np
import pandas as pd
#朴素贝叶斯实现中文垃圾邮件分类
#loadbelFile(),加载index文件,使用字典来存储文件对应的标签
def loadLabelFile(labelFile='full/index'):
labelDict={}
for a in open(labelFile,encoding='utf_8'):
if a.strip()!='':
alist=a.strip().split('../data')
labelDict[alist[1]]=alist[0].strip()
return labelDict
c=loadLabelFile()
print(c)
#readDatalFile(),读取data目录下的邮件数据,将所有垃圾邮件放在ham列表中
def readDatalFile(dataFilePath,labelDict):
spam=[]
ham=[]
for path,label in labelDict.items():
filePath=dataFilePath+path
temp= ''
with open(filePath,'rb') as f:
for line in f:
#ignore:忽略非法字符。
#ignore如果不写