邮件优先级排序与回归分析:原理、实践与应用
邮件优先级排序
权重数据构建
在邮件优先级排序中,我们构建了基于训练数据中所有邮件消息词频的最终权重数据。过程与垃圾邮件分类中计算词频的方法类似,但这次会根据这些计数分配对数转换后的权重。 msg.weights 数据框隐含的假设是,与我们之前见过的其他消息相似的新消息比完全陌生的消息更重要。
我们有五个权重数据框用于排序:
1. from.weight :社交活动特征。
2. senders.df :线程中发件人的活动。
3. thread.weights :线程消息活动。
4. term.weights :活跃线程中的术语。
5. msg.weights :所有邮件中的常用术语。
训练和测试排序器
为了为训练数据中的每条消息生成优先级排名,我们需要将上一节中生成的所有权重相乘。具体步骤如下:
1. 定义 get.weights 函数 :
get.weights <- function(search.term, weight.df, term=TRUE) {
if(length(search.term) > 0) {
if(term) {
term.match &l
超级会员免费看
订阅专栏 解锁全文
431

被折叠的 条评论
为什么被折叠?



