第一次做项目总结

本次项目使用贝叶斯模型为Qzone旅游文章自动打标签。通过统计分词后的关键词和标签共现次数来计算权重,并引入日志记录以优化算法逻辑。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这次有两个教训:

             一:看数据没有耐心。

             二:没有打印日志的习惯。

 

    没有打印日志的习惯,导致出现逻辑错误的时候,一直发现不了。之后所有的方法都实验之后,才决定把以前的东西打印日志出来看。白白浪费了两个星期的工作量,实在是得不偿失。看数据没有耐心,其实也容易导致算法逻辑上的错误。做数据挖掘,就是要能耐下心来看数据。

 

这次的项目,是给Qzone的旅游文章打上标签。用的是基本的贝叶斯模型。

第一步:xianghe统计出分词需要的key,有60W+。挖掘出四万多的tag,统计tag和key的共现次数,算出比值。

              计算的时候,用Python写了一个mapreduce程序,处理6G的文本,用时3小时。

第二步:计算tag。提取tag的过程是这样的:分词:分词的时候,加载了key和tag作为词典,这样分词的时候,就能把这些分出来。统计key在文章中出现的次数,这其实就是TF,TF*tpw,算出一个权重。这个权重和共现的比率去相乘,得到的分数作为一个最终的权值。为了更精确,最后还用权值除以了log(tagnum),其中tagnum是tag在测试集中出现的次数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值