机器如何计算“相关性”？

最新推荐文章于 2025-01-10 14:37:41 发布

原创最新推荐文章于 2025-01-10 14:37:41 发布 · 422 阅读

CC 4.0 BY-SA版权

文章标签：

本文讨论了如何通过计算和整理社会民生类文章来提高新闻关联的发散性和准确性。提出了一种策略，即预先处理前一天的文章，找出内聚性强的文章组，并使用这些组的主题思想进行跨文章链接。

	机器只是知道关键词。
	绝对不可能知道语义。
	所以无从判断中心思想。
	我们的观点是：
	这是一个策略问题。
	比方说网易新闻，http://gd.news.163.com/06/1024/04/2U61I1M40036000Q.html（中间有自动标出来的TAG，但不够准确），既然一个新闻两三百字难以确定。毕竟某些仅仅提到过一次的词语也可能才真正是主题思想。
	那么，到了我们这边，我们由于不是做新闻的，所以，能玩的很多。
	比如说，事先把昨天一整天的社会民生的文章计算，整理出许多内聚性很强的文章组，每组这样就会有一组词语来代表这组的主题思想。
	然后，读者阅读其中一篇时，那么这片文章所属的组的代表词语，就可以关联到很多其他文章。
	这样，发散性会好一点。
	而不会说，抢劫案的新闻匹配的都是抢劫案。
	可能会使派出所、治安联防等的昨日新闻都关联进来。
	也就是说，单纯靠一篇新闻去玩，是不靠谱的
	这就是一个策略问题，思路问题。
	不过，产品设计人员一定要考虑到，用户真的会按照你的这种思路浏览吗？
	您看六间房里面的相关推荐。
	可不是这么样子的。
	发散性很强。
	引入各种策略。来让用户感觉好看。

Trackback: http://tb.blog.youkuaiyun.com/TrackBack.aspx?PostId=1354655