Extracting psychiatric stressors for suicide from social media using deep learning 阅读笔记

博客介绍了迁移学习,包括其概念、研究问题、分类等。还阐述了利用深度学习和知识迁移识别自杀相关推特的方法,如用CNN过滤、RNN提取关键字、人工标注等,同时进行了实验设置,结果显示CNN & glove embedding在自杀分类器中效果最佳,GloVe Twitter embedding在压力关键词识别中最好,迁移学习提高了F SCORE。

补习一下功课:迁移学习

  1. 迁移学习:知识迁移(knowledge transfer)是一个不错的选择,即把B领域中的知识迁移到A领域中来,提高A领域分类效果,不需要花大量时间去标注A领域数据。

迁移学习领域有三个研究问题:(1)迁移什么;(2)如何迁移;(3)什么时候迁移

2、转导学习与推导学习区别

推到学习:需要先用一些样本(training set)建立一个模型,再基于建立好的模型去去预测新的样本(testing set)的类型

推到学习就是一个经典的贝叶斯决策,通过贝叶斯共识:P(Y|X)=P(X|Y)*P(Y)/ P(X),建立后验概率分布P(Y|X),进而预测测试样本类别。

转导学习:不需要建立后验概率模型,直接从无标记的测试样本X出发,构建P(X)的分布,对测试样本分类。与推到学习相比,转到学习也有它的缺点:因为是直接基于P(X)处理,转导学习的测试样本必须预先已知。

3、基于定义的迁移学习分类

基于迁移学习的定义中源领域和目标领域D和任务T的不同,迁移学习可以分成三类:推导迁移学习(inductive transfer learning),转导迁移学习(tranductive transfer learning)和无监督迁移学习(unsupervised transfer learning)

推导迁移学习定义:给定源领域Ds和源领域学习任务Ts、目标领域Dt和目标领域任务Tt的情况,且Ts不等于Tt,情况下;推导迁移学习使用源领域Ds和Ts中的知识提升或优化目标领域Dt中目标预测函数ft(.)的学习效果。

在推导迁移学习中,源任务(source task)与目标任务(target task)一定不同,目标领域Dt与源领域Ds可以相同,也可以不同。在这种情况下,目标领域需要一部分带标记的数据用于建立目标领域的预测函数ft(.)。根据源领域中是否含有标记样本,可以把推导迁移学习分为两个类:

转导迁移学习定义:给定源领域Ds和源领域学习任务Ts、目标领域Dt和目标领域任务Tt的情况,且Ts等于Tt、Ds不等于Dt,情况下;转导迁移学习使用源领域Ds和Ts中的知识提升或优化目标领域Dt中目标预测函数ft(.)的学习效果。此外,模型训练师,目标领域Dt中必须提供一些无标记的数据。

无监督迁移学习定义:给定源领域Ds和源领域学习任务Ts、目标领域Dt和目标领域任务Tt的情况,且Ts不等于Tt、标签空间Yt和Ys不可观测,情况下;转导迁移学习使用源领域Ds和Ts中的知识提升或优化目标领域Dt中目标预测函数ft(.)的学习效果。

开始啦!论文笔记

摘要

自杀的主要原因是精神压力

利用深度学习和知识迁移识别出自杀相关的推特

先收集数据(利用关键字检索,过滤,然后进一步使用二分类进行数据精简),其中,二分类器是用CNN建立的,然后进行人工标注。压力识别问题被认为一个命名实体识别的问题而且利用RNN进行解决。此外,为了降低标注成本和挺高效率,利用到了迁移学习。对SVM,ET,CRF,等比较后,发现CNN最好

 

背景

首先利用关键字收集和过滤自杀相关的推特,然后利用CNN进行进一步过滤。然后利用RNN在自杀相关的推特中提取关键字。除此之外,进行了人工标注,利用迁移学习对之前标注的数据做了实验(预训练神经网络层)

 

方法

整个流程主要包括4步 首先,利用关键字搜索出大致数据集(包含自杀想法,自杀历史,自杀计划) 第二部。通过去除停用词得到一个精炼的数据集  第三步,考虑到利用关键词搜索的推特有一定的噪音数据。利用CNN选出精准的自杀相关博客。 通过以上步骤,发现了自杀压力的焦点,这个问题可被定义为命名实体识别问题(利用RNN进行的)。 除这些之外,为了提高压力获取的准确性,利用到了转移学习的策略。

 

推特收集和过滤

人工设计了一个自杀关键词列表来收集推特。在人工复查的时候,发现有些推特是在评论新闻或广告,而不是个人的自杀想法。为建立更精准的候选数据集,在收集过程中,去除包含URL or keywords such as “hotline”, “suicide bomb”, “suicide attack”,等词的推特。归纳总结后产生停用词列表(他们自己设计的)。

推特标注

为了识别出与自杀相关的推特,标注了两种信息。第一是推特的标签(Positive/Negative)

Positive的推特意味着有自杀想法的用户发的博客。 negative的推特,又可被细分为1没有自杀或自杀想法2反对自杀或自杀想法的3讨论别人的自杀或自杀想法的4新闻或报导5其他的非positive的推特。 第二种信息是推特中所出现的心理压力的关键词(这些关键词也进行了标注)

标注工作分为了两轮:第一轮是标注positive或negative,然后训练了一个二分类分类器

利用分类器选择positive中更精准的推特,第二轮标注中,标注含心里压力的关键词(利用这个标注的,想详细了解一下呢)

CNN的二分类来识别自杀相关的推特

利用斯坦福的脚本文件来整理推特,然后,把每个推特中的词转换为向量,然后把向量喂入预训练好的GloVe中(融合了矩阵分解Latent Semantic Analysis (LSA)的全局统计信息和local context window优势。融入全局的先验统计信息,可以加快模型的训练速度,又可以控制词的相对权重),映射嵌入被用来作为模型最初的输入,为了训练CNNmodel,不同的过滤器被使用用来产生卷积层。选择最大池化,加上dropout避免过拟合

基于RNN的命名实体识别

Token-》token vector,每个token里面的character->character vector,字符bi_lstm将每个时间步中的character embedding 作为输入,输出是每个token里面的每个character的总结,character lstm的输出作为 token lstm 的输入,并且在token LSTM顶层利用序列随机场联合解码推特

迁移学习来发现压力关键词

利用该 CEGS N-GRID 机构的心理学已标注好的语料训练的模型应用到目标领域

 

实验设置

在这个实验中深度学习有两大核心:基于CNN建立的二分类分类器,基于RNN的命名实体识别。

对于二分类分类器,分别使用2轮标注后的数据,经过两步训练,首先利用第一轮标注的数据训练positive或negative。

利用glove作为CNN的embedding层(分别设置不同的维度进行比较)。分类器也选了好多进行比较

对于进行命名实体识别的RNN做了以下实验:利用不同算法,不同维度,是否加入迁移学习等,每个层所用算法等

结果

推特标注的结果

自杀分类器的结果  CNN & glove embedding取得了最好的效果

命名实体识别,心理压力关键词提取的结果

在试验性的工作中,对于压力关键词识别尝试了不同的embedding方法,GloVe Twitter embedding 最好

迁移学习的表现(为识别stressor)

迁移学习提高了F SCORE :不同参数下以及不同训练集大小下的比较

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值