电子邮件数据特征加权与排序方案设计
1. 数据预处理
在开始设计排序方案之前,需要对数据进行预处理。具体步骤如下:
1. 转换大小写 :将 Subject 和 From.EMail 列的字符向量转换为小写,以确保数据在进入训练阶段前尽可能统一。
allparse.df$Subject <- tolower(allparse.df$Subject)
allparse.df$From.EMail <- tolower(allparse.df$From.EMail)
- 按时间排序 :使用
with和order命令按照日期对数据进行时间顺序排序。
priority.df <- allparse.df[with(allparse.df, order(Date)),]
- 划分训练集 :将按时间排序后的数据框的前半部分存储为
priority.train,用于训练排序器;后半部分用于测试排序器。
priority.train <- priority.df[
超级会员免费看
订阅专栏 解锁全文
1790

被折叠的 条评论
为什么被折叠?



