社交媒体文本中的命名实体提取
1. 社交媒体文本特点与命名实体
社交媒体文本,如推特数据,长度有限,这促使用户精简语句,进而导致缩写和简写形式的大量使用,增加了文本处理的复杂性。不过,这类文本包含着被称为命名实体的信息单元,这些实体可分为不同的标签,例如人物、地点、娱乐、组织、数量、日期、月份、年份等。通过分析句子中每个单词的实体标签,能够提取出不同单词之间的关系,这一过程即关系提取。
2. 相关研究工作
从社交媒体文本中提取信息需要多个处理步骤。从脸书和推特等平台提取的数据集包含身份号码、用户名、大量超链接、特殊符号、表情字符和简写形式等。对于代码混合数据集,文本会包含罗马语言和用户的母语。像印度语言这样形态丰富的语言数据集,会让自然语言处理(NLP)任务更具挑战性。在各种NLP任务中,实体提取是基础任务。以下是一些已提出的实体提取方法:
- 使用条件随机场(CRF)技术对推特微帖子进行实体提取。
- 基于支持向量机(SVM)开发基于特征提取的命名实体识别(NER)系统和基于地名词典特征的实体提取系统。
- 为印度语言的推特数据实现基于词汇信息的实体识别系统。
- 提出使用随机厨房水槽算法的NER系统。
- 基于词嵌入的方法改进了常规的NER任务方法。近年来,词嵌入成为解决NLP问题的优秀方式,例如提出了基于连续词袋(CBOW)和结构化跳字模型的Word2vec模型用于各种NLP任务。
3. 基于词嵌入的特征提取
词嵌入模型为训练系统提供单词的向量表示,它取代了传统分布语义学中使用的向量空间模型。虽然会带来一定的计算复杂性,但被认为是一种有效的方法。这是一种基于神经网络的模型,用于
超级会员免费看
订阅专栏 解锁全文
532

被折叠的 条评论
为什么被折叠?



