提升推文热度与网页可访问性的技术研究
1. 推文主题感知推荐以提升热度
1.1 推荐方法
条件概率法
通过条件概率来判断属性是否值得推荐。设 $p$ 为转发数,若集合 $S$ 中的推文 $i$ 的转发数超过阈值 $\theta$ 且属性 $a$ 存在,则 $t_i = 1$,否则 $t_i = 0$;若推文 $i$ 的转发数超过 $\theta$,则 $p_{t_i} = 1$,否则 $p_{t_i} = 0$。当 $P(p > \theta|a) \geq 0.5$ 时,推荐属性 $a$。直观地说,如果某个属性在热门推文中出现的概率很高,就建议使用该属性。
决策树法
由于条件概率法假设属性相互独立,这一假设不一定成立,因此引入决策树进行推荐。构建决策树时,在每个叶子节点估计属性 $a$ 的信息增益 $IG(p \geq \theta, a) = H(p \geq \theta) - H(p \geq \theta|a)$,其中 $H(p \geq \theta)$ 是转发数超过 $\theta$ 的熵,$H(p \geq \theta|a)$ 是在属性 $a$ 存在的条件下转发数的条件熵。具体步骤如下:
1. 计算所有属性和所有推文中的 $IG(p \geq \theta, a)$。
2. 选择 $IG(p \geq \theta, a)$ 值最高的属性 $a$,将推文分为 $S_a$ 和 $S’_a$,其中 $S_a$ 包含具有属性 $a$ 的推文,$S’_a$ 包含不具有属性 $a$ 的推文。
3. 对所有属性重复上述过程,构建二叉树,树的分支根据属性的存在与否指向叶子节点。
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



