作者丨孙子荀
单位丨腾讯科技专家研究员
业务定义
首先在我们讨论标题党的时候,我们需要定义清楚,我们说的是1 仅标题带来的主观感受,还是 2 通过标题点击进入文章后的阅读感受。
如果是1 :标题的感受。来源于几个indicate 。
a .表征的有: 用词用语 ,句法句样式; (可以看文末【标题党特征举例】)
b .知识层面的有: 标题是否让人主观先验到,大概率是虚假新闻。
如果是2:通过标题后阅读文章的感受。有几个indicate。
a.表征的有:文章直观感受没有信息量如,纯配图,或者纯旧闻,提现在跳出率高,阅读时常低。
b.知识层面的有: 文章是否无营养,文章内容纯在虚假。
我们根据上面的区分,根据使用特征和处理手段,把标题党分成几种问题domain, 希望在解决标题党泛问题之前,先明确定义。
1型 标题型标题党 (基于标题本身)
1.1 使用了诱导性:句法句式
1.2 使用了诱导性:用词用语
1.3 语义本身具有诱导性
通用子问题: 分类模型(SVM,BERT)。 句法分析,
2型 文不对题型标题党 (基于文本和内容匹配情况)
通用子问题:NLP问题中的相似度量办法都可以尝试。
3型 无价值判定标题党 (基于内容表现模型)
如:诱导点击,跳出率高。 用户进入后大部分第一时间跳出。 这里
通用子问题:数据挖掘问题,如空间异常检查。
4型 评论判定标题党 (基于用户文本知识模型)
4.1 基于用户评论分析
通用子问题: NLP情感分析,规则等。
5型 行为判定标题党 (基于用户行为模型)
4.2 基于负反馈行为(举报原因)
通用子问题:1.类似III型,常规数据挖掘问题;
2.建模用户行为,其他集体智慧编程方法(CF,矩阵分解等)。
6型 虚假型标题党
如:标题本身描述是虚假的。可能是主观虚假,也可能是客观虚假。和正文是否虚假无关。
通用子问题:可以参考当前已有的假新闻检测方法: https://www.jiqizhixin.com/articles/2019-02-19-22
9型 整体标题党
严格来说可能不一定是一个标题党问题,只是具有标题党的内容,本身也伴随着这些内容问题,比如水文,无营养判定等内容质量问题等。
备注:
-
以上五个类型,不具备排他性。可以同时符合多个。
-
9型标题党, 可以通过多模态的分类问题直接建模,类似无营养,水文,假新闻等
举例
-
断章取义 (I, II,IV)
-
标题:刘德华演唱会现场耍大牌!怒骂保安场面失控!
-
内容:安保动作过大,刘德华保护歌迷安全
-
-
故作玄虚 (I )
-
标题:插了一夜没拔,结果差点弄出人命!
-
内容:手机充电器夜里爆炸
-
-
-
正题歪做(IV)
-
标题:禽兽!一众男明星艺人竟然对柳岩做这样的事情!
-
内容:包贝尔婚礼,柳岩险被群人推到泳池
-
-
-
侮辱调侃 (I,IV)
-
标题:九寨沟,不震你震谁?
-
内容:九寨沟景区收入过高被仇富
-
-
-
数据无从考证 (IIV )
-
标题:14亿人都不知道的真相,历史的血泪!
-
-
-
虚构名