基于Winnow的中文邮件分类器的设计

1背景:

电子邮件的广泛应用,垃圾邮件泛滥,垃圾邮件具有危害性,适合英文邮件的分类算法并不一定都适合中文的环境

2邮件语料的特征:

半结构化,词汇更生活化,需要个人隐私保护

3Winnow分类器:

线性分类器,错误驱动的反馈机制,训练和分类过程比较简单,易于计算,可以在线学习

4分类过程:

接受邮件后,解码,提取有效信息,分词处理,得到该邮件的特征集合。假设每个类别特征空间的大小相等并且都是n,邮件类别数为k,该邮件就表示为k个n维向量x=(x1,x2,…,xn ) ,  xi∈{0,1},(1≤i≤n),如果对应类别特征空间中的特征在该邮件的特征集合中则xi =1,如果不在则xi =0.

每类有一个训练好的权重向量w=(w1,w2,…wn),被分类邮件先要计算其相应的∑wi∗xi 值。如果∑wi∗xi> θ,则表明该邮件属于该类。反之则表明该邮件不属于该类。(θ为阈值)

Winnow是错误驱动的反馈机制,只有当实际结果与预测结果矛盾时才调整类别的权重向量wi 。
(a)如果∑wi∗xi > θ ,但样本不属于该类,则要降低权重, wi =α* wi 。(0<α<1)

(b)如果∑wi∗xi  <θ ,但样本属于该类,则要增加权重,wi =β* wi 。(β>1)

5Balanced winnow

用w+和w-代替w,允许出现负的权值(w+和w-的值可能为负)

(a)如果∑(wi+-wi-)∗xi > θ ,但样本不属于该类,则要降低权重, wi+=α* wi ,wi-=wi-*β。(0<α<1)(β>1)

(b)如果∑(wi+-wi-)∗xi  <θ ,但样本属于该类,则要增加权重,wi+ =β* wi+,wi-=wi-*α 。(β>1)(0<α<1)

6系统设计流程:

(a)对能凭借某些特定词语或句子判定类别的邮件,合理的运用特征精确匹配规则.建立“特征--类别”精确匹配库,提高分类的速度和精度。例如将标题中含有“特卖”邮件归入广告类。

(b)针对太过短小的邮件,根据历史记录中该发信人的历史记录情况确定类别。
(b)针对有一定长度但还是不够内容分析的邮件,采用“同义词库”的方法来扩充特征.这里的同义词典是一个简单的文本文件,比如“计算机、电脑、手提、台式机”。

(d)针对群发邮件和标题中含有“Re:”的邮件等,进行加权处理,具体做法是在判断条件是否成立时,有选择地乘以一个合适的系数λ,形如λ ∑wi∗xi ;(λ >0),加强权重时取λ >l,削减权重时取0<λ <1。群发邮件一般不属于私人信件范畴,当与私人信件的权重向量组合时有意地削减权重;而标题中含“Re:”的邮件一般属于工作信件或私人邮件,所以当与对应权重向量组合时则加强权重。

 (e) 系统在匹配了上述所有规则,使用Winnow时确保∑wi∗xi> θ后,依然没有确定类别的邮件,都归入召回率高的类。

7流程图:

8总结:

中文邮件语料库存在不足

Winnow算法时空复杂度低

距离实用还有一些差距,提高实用性

需要提供多语言支持

转载于:https://www.cnblogs.com/sancallejon/p/4966071.html

内容概要:本文深入探讨了金属氢化物(MH)储氢系统在燃料电池汽车中的应用,通过建立吸收/释放氢气的动态模型和热交换模型,结合实验测试分析了不同反应条件下的性能表现。研究表明,低温环境有利于氢气吸收,高温则促进氢气释放;提高氢气流速和降低储氢材料体积分数能提升系统效率。论文还详细介绍了换热系统结构、动态性能数学模型、吸放氢特性仿真分析、热交换系统优化设计、系统控制策略优化以及工程验证与误差分析。此外,通过三维动态建模、换热结构对比分析、系统级性能优化等手段,进一步验证了金属氢化物储氢系统的关键性能特征,并提出了具体的优化设计方案。 适用人群:从事氢能技术研发的科研人员、工程师及相关领域的研究生。 使用场景及目标:①为储氢罐热管理设计提供理论依据;②推动车载储氢技术的发展;③为金属氢化物储氢系统的工程应用提供量化依据;④优化储氢系统的操作参数和结构设计。 其他说明:该研究不仅通过建模仿真全面验证了论文实验结论,还提出了具体的操作参数优化建议,如吸氢阶段维持25-30°C,氢气流速0.012g/s;放氢阶段快速升温至70-75°C,水速18-20g/min。同时,文章还强调了安全考虑,如最高工作压力限制在5bar以下,温度传感器冗余设计等。未来的研究方向包括多尺度建模、新型换热结构和智能控制等方面。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值