今天接了一个单子,主要是做基于机器学习的邮件分类算法的研究:比较简单代码如下所示:
源码如下所示:
#!/usr/bin/python
# -*- coding utf-8 -*-
import numpy as np
def loadFile(filename):
"""
函数说明:
加载数据文件
:param filename:
文件名
:return:
contentList - 切分邮件内容得到的词条
classVec - 类别标签向量
"""
file = open(filename)
contentList = []
classVec = []
contents = file.readlines()
for line in contents:
content = line.strip('\n').split(' ') #以空格为分割符,切分邮件的内容,得到该邮件对应的词条
classVec.append(int(content[0])) #取出邮件的类别标签
del(content[0]) #删掉词条中的类别标签
contentList.append(content)
return contentList, classVec
def createVo