同义词词典有利于提高Tag向量匹配度

最新推荐文章于 2024-09-08 11:15:03 发布

最新推荐文章于 2024-09-08 11:15:03 发布 · 200 阅读

·

0

·

通过对Sina微博用户的数据分析，采用机械匹配方法找出兴趣相似的用户，并通过对比分析发现利用同义词词典预处理能显著提高匹配质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们希望通过tag来找到Sina微博上兴趣爱好相似的人。

采用机械匹配方法，对237位Sina微博的数据分析，得到最匹配的几组用户的tag如下文。

观察这些结果发现，机械匹配效果一般，但是一旦运用同义词词典对词汇进行预处理后，将大大提高匹配质量。

后面将采用同义词方式进行处理，最终的效果敬请关注~

-----------------

第一组：

读书旅游手机媒体亲情网络运动电影博客新闻美剧听歌旅行音乐时尚平常心搞笑生活美食娱乐

( http://t.sina.com.cn/lmt11606)

浪漫平常心乐观宝宝好性格听歌娱乐爱情亲情 70后时评幽默阅读天蝎座语录善良搞笑生活

(http://t.sina.com.cn/1677880645)

对比：

读书 - 阅读
博客，新闻 - 时评
听歌、音乐 - 听歌
娱乐 - 幽默、搞笑
亲情 -情亲
搞笑 - 搞笑
生活 - 生活
娱乐 - 娱乐

第 2组：

电影音乐上网学生大学生自由搞笑段子幽默笑话

(http://t.sina.com.cn/iduanzi)

时评搞笑宅女电影上网自由学生 90后娱乐幽默

(http://t.sina.com.cn/ylq)

这两个都是专门写段子的，倒是匹配得不错。

对比：

电影 - 电影

音乐 - 娱乐

上网 - 上网

大学生 - 学生

自由 -自由

搞笑 - 搞笑

幽默 - 幽默

笑话 - 搞笑、幽默

后面对比略

第3组：

电影音乐上网学生大学生自由搞笑段子幽默笑话

浪漫电影阅读音乐上网自由学生摄影时尚幽默

这俩还是写段子的。。。。

第 4组：

历史时尚文学艺术美食读书音乐电影摄影宋新妮的粉絲

http://t.sina.com.cn/cokeandmilktea
读书旅游手机媒体亲情网络运动电影博客新闻美剧听歌旅行音乐时尚平常心搞笑生活美食娱乐

http://t.sina.com.cn/1677880645

这俩比较不靠谱。。。

第5组：

媒体互联网移动互联网投资创业 google 蚂蚁读书

（http://t.sina.com.cn /maitian）

80后读书游戏股票互联网电影广州龙与地下城跑团 IT 中山大学桌游科幻奇幻推理创业投资媒体

（http://t.sina.com.cn /duoniu）

这俩哥们，嗯，蛮靠谱，哈哈~~

第6组：

国画书法生活美食艺术时尚英语阅读旅行教育

读书旅游手机媒体亲情网络运动电影博客新闻美剧听歌旅行音乐时尚平常心搞笑生活美食娱乐

第7组：

摄影动漫听歌自由上网音乐看书 80后

浪漫电影阅读音乐上网自由学生摄影时尚幽默

第8组：

IT Google 美食文学杂谈电影音乐小说网络户外

诗产品经理 SNS 电影冷笑话宅女腐女 Google 产品设计搜狐新浪产品用户体验 UCD UED 文艺女青年音乐 IT 互联网哲学

第9组：

诗产品经理 SNS 电影冷笑话宅女腐女 Google 产品设计搜狐新浪产品用户体验 UCD UED 文艺女青年音乐 IT 互联网哲学

web20 UED UCD 互联网狮子座风风无敌梁咏琪产品经理北京

第10组：

音乐网购文字平常心美图美文摄影爱好者玩儿善良生活
唱歌平常心摄影爱好者羽毛球善良浪漫写作旅游摄影音乐

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。