样本邮件数据来自一个资料库;
第一步,邮件内容预处理; 例如一般化这个url地址成为httpaddr,这个识别器会根据是否有url来判断是否垃圾邮件;都转化为小写字母,一般化数字,一般化价钱等等。。。
第二步,预处理后,选取垃圾邮件中出现次数超过100次的关键字组成列表,列表大概有1899个关键字;
第三步,有关键字列表后,就可以map测试样本,获得一个1899向量,第n维的向量为1时,代表第n个关键字存在于样本,这样我们就可以获取这个样本的feature了;
第四步,获得这个feature之后我们就可以训练模型了,训练样本有4000个,测试样本有1000个。