【内容算法】内容质量之标题党

本文探讨了标题党的不同类型,如标题型、文不对题型、无价值判定等,并介绍了各种检测方法,包括基于标题和内容的相似度、用户行为分析和评论分析。此外,还提到了相关论文和业界解决方案,如Facebook和今日头条如何利用算法和用户反馈来识别和处理标题党内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

作者丨孙子荀

单位丨腾讯科技专家研究员

 

业务定义

 

首先在我们讨论标题党的时候,我们需要定义清楚,我们说的是1 仅标题带来的主观感受,还是 2 通过标题点击进入文章后的阅读感受。

 

如果是1 :标题的感受。来源于几个indicate 。

a .表征的有: 用词用语 ,句法句样式; (可以看文末【标题党特征举例】)

b .知识层面的有: 标题是否让人主观先验到,大概率是虚假新闻。

 

如果是2:通过标题后阅读文章的感受。有几个indicate。

a.表征的有:文章直观感受没有信息量如,纯配图,或者纯旧闻,提现在跳出率高,阅读时常低。

b.知识层面的有: 文章是否无营养,文章内容纯在虚假。

 

我们根据上面的区分,根据使用特征和处理手段,把标题党分成几种问题domain, 希望在解决标题党泛问题之前,先明确定义。

 

 

1型 标题型标题党 (基于标题本身)

1.1 使用了诱导性:句法句式

1.2 使用了诱导性:用词用语

1.3 语义本身具有诱导性

通用子问题: 分类模型(SVM,BERT)。 句法分析,

2型 文不对题型标题党 (基于文本和内容匹配情况)

通用子问题:NLP问题中的相似度量办法都可以尝试。

3型 无价值判定标题党 (基于内容表现模型)

如:诱导点击,跳出率高。 用户进入后大部分第一时间跳出。 这里

通用子问题:数据挖掘问题,如空间异常检查。

 

4型 评论判定标题党 (基于用户文本知识模型)

 

4.1 基于用户评论分析

通用子问题: NLP情感分析,规则等。

 

5型 行为判定标题党 (基于用户行为模型)

4.2 基于负反馈行为(举报原因)

通用子问题:1.类似III型,常规数据挖掘问题;

2.建模用户行为,其他集体智慧编程方法(CF,矩阵分解等)。

 

6型 虚假型标题党

如:标题本身描述是虚假的。可能是主观虚假,也可能是客观虚假。和正文是否虚假无关。

通用子问题:可以参考当前已有的假新闻检测方法: https://www.jiqizhixin.com/articles/2019-02-19-22

 

9型 整体标题党

 

严格来说可能不一定是一个标题党问题,只是具有标题党的内容,本身也伴随着这些内容问题,比如水文,无营养判定等内容质量问题等。

 

 

 

备注:

  1. 以上五个类型,不具备排他性。可以同时符合多个。

  2. 9型标题党, 可以通过多模态的分类问题直接建模,类似无营养,水文,假新闻等

 

举例

 

  • 断章取义 (I, II,IV)

    • 标题:刘德华演唱会现场耍大牌!怒骂保安场面失控!

    • 内容:安保动作过大,刘德华保护歌迷安全

 

  • 故作玄虚 (I )

    • 标题:插了一夜没拔,结果差点弄出人命!

    • 内容:手机充电器夜里爆炸

    •  

  • 正题歪做(IV)

    • 标题:禽兽!一众男明星艺人竟然对柳岩做这样的事情!

    • 内容:包贝尔婚礼,柳岩险被群人推到泳池

    •  

  • 侮辱调侃 (I,IV)

    • 标题:九寨沟,不震你震谁?

    • 内容:九寨沟景区收入过高被仇富

    •  

  • 数据无从考证 (IIV )

    • 标题:14亿人都不知道的真相,历史的血泪!

    •  

  • 虚构名

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值