新书速览|PyTorch深度学习与企业级项目实战-优快云博客
《PyTorch深度学习与企业级项目实战(人工智能技术丛书)》(宋立桓,宋立林)【摘要 书评 试读】- 京东图书
谣言检测系统项目背景
本项目包括代码和数据文件,百度网盘下载链接:
https://pan.baidu.com/s/1m7QShfU3uuJzyrgPm3ty8g?pwd=x1t6
提取码: x1t6
1938年10月30日的晚上,哥伦比亚广播公司照例安排了广播剧,当晚的节目是根据H·G·威尔斯《世界之战》改编的“火星人进攻地球”。为提升吸引力,制作团队选择以类纪实风格演绎这台节目,通过模拟新闻播报的形式推进剧情的发展。
虽然在节目播出前播音员已经强调了这是一部广播剧,但演员们的逼真表演还是让很多听众信以为真,许多人把节目内容当成了紧急插播的突发新闻。前一刻还在阖家欢乐享受晚餐的人们,下一刻竟认为世界末日即将到来。紧张恐惧的情绪在人群中蔓延,进而引发了全国性恐慌。人们涌上街头寻找避难所,横冲直撞的车辆把街道搅得更加混乱,教堂和车站成为人们寻求救赎和出路的目的地。
资料显示,当时美国的3200万个家庭中,约有2750万家购置了收音机。借由这一广泛而又便捷的媒介,美国约有170万人相信了“火星人进攻地球”的消息,其中包括28%的大学毕业生和35%的高收入人群。这荒诞的一幕在日后看来虽然可笑,但却向世人展示了在信息不对称的情况下,广泛传播的谬误能够取得怎样疯狂的效果。
时至今日,互联网的发展让信息触手可得,然而低门槛和高自由度的技术特征也使得有价值的内容与五花八门的谣言在互联网世界中泥沙俱下。日益猖獗的谣言正影响着人们的正常生活和社会的安定和谐。在信息传播愈加快捷便利的“自媒体”时代,谣言搭上了网络的快车,在速度、广度、力度方面都有了空前的扩展,谣言的包装手段也呈现多元和成熟的趋势。
一些造谣者通过大量的故事元素把耸人听闻的谣言传播出去。网络谣言的另一特征是擅长扯明星、蹭热点。图片、视频是更富感染力和欺骗性的造谣手段,近几年出现的图片或视频谣言,被造谣者换上文字说明和字幕,再将事件发生地更换为“本地模式”进行简单“包装”,很快在当地疯传。例如2017年8月中旬,网上广泛流传一段疑似郑州大学第二附属医院内狂犬病患者发病的视频,后经调查视频事发地在吉林一家医院,视频中的女子患有精神疾病也并非狂犬病。
社交媒体的发展在加速信息传播的同时,也带来了虚假谣言信息的泛滥,往往会引发诸多不安定因素,并对经济和社会产生巨大的影响。人们常说“流言止于智者”,要想不被网上的流言和谣言盅惑、伤害,首先需要对其进行科学甄别,而时下人工智能正在尝试担任这一角色。
谣言检测系统代码实战
传统的谣言检测模型一般根据谣言的内容、用户属性、传播方式人工地构造特征,而人工构建特征存在考虑片面、浪费人力等现象。本项目使用基于PyTorch+Transformer的谣言检测模型,将文本中的谣言事件进行连续向量化,通过一维卷积神经网络的学习训练来挖掘表示文本深层的特征,避免了特征构建的问题,并能发现那些不容易被人发现的特征,从而产生更好的效果。项目中使用的数据是微博头条新闻数据,数据集一共有3387条新闻数据,新闻的类型分为两类:“谣言新闻”和“真实新闻”。本项目所使用的数据是从新浪微博不实信息举报平台抓取的中文谣言数据,数据集中共包含1538条谣言和1849条非谣言。
在Transformer的编码器中,我们使用注意力机制来提取各个词的语义信息,这里需要引入不同词的位置信息,让注意力机制不仅考虑词之间的语义信息,还需要考虑不同词的上下文信息,Transformer中使用的是位置编码(Position Encoding),就是将每个词所在的位置形成一个嵌入向量,然后将这个向量与对应词的嵌入向量加和,然后“喂”进注意力机制网络中。因此,定义PositionEncoding类,直接拿过来用即可,只需要实例化这个类,然后传入我们的词嵌入向量即可。
定义Transformer网络结构:
(1)嵌入层:负责将我们的词形成连续型嵌入向量,用一个连续型向量来表示一个词。
(2)位置编码层:将位置信息添加到输入向量中。
(3)Transf

最低0.47元/天 解锁文章
1103

被折叠的 条评论
为什么被折叠?



