推特无关内容与自动机器学习文本分类评估研究
在当今数字化时代,社交媒体和机器学习技术的发展深刻影响着信息传播和处理方式。推特作为全球知名的社交媒体平台,在信息交流中扮演着重要角色,但也面临着无关内容干扰的问题。同时,自动机器学习(AutoML)在处理文本数据方面的应用也逐渐成为研究热点。本文将深入探讨推特上无关#COVID19推文的情况,以及AutoML工具在文本分类任务中的表现。
推特无关#COVID19推文调查
在菲律宾实施社区隔离的最初几个月里,研究人员对推特上无关或未经请求的推文进行了调查。研究目的在于确定这些无关推文是否会削弱推特作为知识工具的作用,并评估其对平台信息可信度的影响。
研究采用了定性研究方法,通过人工检查员对推文进行分类,以过滤无关推文并确定垃圾邮件发送者利用平台的动机。结果显示,与以往使用自动垃圾邮件检测的研究相比,发现的无关推文或恶意推文数量相对较少。在分析的7645条推文中,只有426条(占比5.57%)为无关推文。其中,大部分无关推文被归类为“诈骗”,而“仇恨言论”和“谣言”的出现频率较低。进一步分析表明,排除标记为“未分类”的推文后,只有2.76%被标记为可能的垃圾邮件或恶意内容。
基于无关推文的特征,研究发现菲律宾垃圾邮件发送者的主要动机是通过以下两种方式获利:一是将大量流量导向包含广告的网站(推广或销售产品和服务);二是增加社交媒体的关注者数量。
尽管样本数据中无关推文的数量较少,但研究人员认为这些垃圾内容仍会对标签使用和知识发现产生不利影响。它们可能会影响推特实时搜索功能的准确性、研究数据的有效性、推文的可信度以及平台的整体声誉。
为了确保垃圾邮件检测的准确性,不能仅仅依赖自动检测
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



