2、文本数据挖掘技术综述

文本数据挖掘技术综述

1. 文本数据挖掘技术概述

文本数据挖掘是利用一组预测器揭示信息数据库中隐藏结构,以进行分类和预测的过程。在此过程中,会对常规文档和非结构化手稿进行模式匹配来执行文本挖掘。主要的文本数据挖掘技术包括信息检索、自然语言处理、信息提取、文本摘要、文本分类、聚类、信息可视化和问答系统等。

2. 主要文本数据挖掘技术
  • 信息检索(IR) :从数据库中识别非结构化格式文档,以满足从大量文档集中获取所需信息的需求。有布尔模型、向量模型和概率模型三种。它能在自然语言文档中定位特定项,从知识数据库中提取所需文本,具有速度快、结果准确相关的特点。
  • 自然语言处理(NLP) :计算机科学和人工智能的子领域,旨在处理人机语言交互。借助人工智能,使机器能够读取、理解、解释、处理和推导人类语言的含义。主要模型有长短期记忆(LSTM)、Seq2seq 模型、命名实体识别模型等。此外,NLP 还包括偏好图和词嵌入等机制。
  • 信息提取(IE) :计算机评估非结构化语言文档的起点,主要用于区分文档中重要的关系。通过模式匹配方法识别文本中的预定义安排,对无法用于挖掘的信息进行处理和评估,为网络挖掘和搜索工具的后处理提供支持。
  • 文本摘要 :从源文本中提取主要数据,生成精简版本的过程。分为提取式摘要和抽象式摘要。提取式摘要直接从原文中提取重要信息或句子;抽象式摘要则通过重新表述或使用新词汇生成新句子。
  • 文本分类 :将
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值