IRIS 2021 技术文档 First Look 30 -- 使用 InterSystems 产品进行文本分析

原创

于 2021-11-02 23:00:13 发布 · 153 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #python #java #机器学习 #编程语言

本技术概览( First Look )介绍了 InterSystems IRIS® 数据平台支持使用 Natural Language Processing(NLP，自然语言处理 )文本分析的能力，NLP文本分析以各种自然语言对非结构化文本数据进行语义分析。能让您发现有关大量文本文档内容的有用信息，而无需事先了解文本内容。

本技术概览( First Look )介绍了 InterSystems IRIS Natural Language Processing(自然语言处理)，并介绍了一些与索引文本数据相关的初始任务，以进行语义文本分析。完成这些任务后，您将对一组文本建立索引并执行分析，以确定这些文本中最常见的实体(entity)、关于这些实体的度量指标、实体之间的各种关联，以及查看实体在源文本的表现形式。这些活动仅设置使用默认设置和功能，以便您熟悉 NLP 文本分析的基础知识。有关Text Analytics(文本分析)的完整文档，请参阅InterSystems IRIS Natural Language Processing (NLP) Guide (《InterSystems IRIS 自然语言处理 (NLP) 指南》)。

处理非结构化文本的一个相关但独立的工具是InterSystems IRIS SQL Search。SQL Search允许您search(搜索)这些相同的实体，以及多个文本中的单个单词、正则表达式(regular expression)和其他结构。本质上，搜索解决方案的前提是您知道自己要寻找的目标。NLP 文本分析旨在帮助您发现内容和内容实体之间的联系，而无需明确要寻找的目标。内容和内容实体之间的联系，而无需明确要寻找的目标。

要浏览技术概要(First Look)的所有内容，包括可以在InterSystems IRIS的免费评估实例上执行的许多内容，请参阅InterSystems First Looks (《InterSystems 技术概要》)。

为什么 NLP 文本分析很重要

企业逐渐累积的越来越多的非结构化文本数据，远远超出了他们阅读或记载这些文本的能力。通常，企业可能对这些文本文档的内容知之甚少。基于纯search(搜索)技术传统的“自上而下”文本分析，对这些文本的内容做出假设，可能会遗漏重要内容。

InterSystems IRIS Natural Language Processing (NLP)可以在预先不了解这些文本的主题的情况下，对这些文本进行文本分析。它通过应用识别语义实体的特定语言规则来实现这项功能。由于这些规则是专门针对语言而非内容，因此 NLP 可以在不使用字典或本体的情况下提供对文本内容的深入分析。InterSystems IRIS Natural Language Processing (NLP)可以在预先不了解这些文本的主题的情况下，对这些文本进行文本分析。它通过应用识别语义实体的特定语言规则来实现这项功能。由于这些规则是专门针对语言而非内容，因此 NLP 可以在不使用字典或本体的情况下提供对文本内容的深入分析。(NLP)可以在预先不了解这些文本的主题的情况下，对这些文本进行文本分析。它通过应用识别语义实体的特定语言规则来实现这项功能。由于这些规则是专门针对语言而非内容，因此 NLP 可以在不使用字典或本体的情况下提供对文本内容的深入分析。

InterSystems IRIS 如何实施 NLP 文本分析

要为 NLP 分析准备文本，您必须将这些文本加载到domain(域)中，然后构建域。基于对这些文本的分析，NLP为该域构建索引， NLP可以使用域快速分析大量文本。文本可以从各种数据位置输入，包括 SQL 表、文本文件、strings(字符串)、globals 和 RSS 数据。

NLP 支持以下功能：

Language models(语言模型)：识别单词之间的语义关系是专门针对语言的。NLP 包含十种自然语言的语义规则(语言模型)，可以分析用该语言编写的任何主题的文本。如果指定的语言不止一种，NLP 通过确定每个文本中的每个句子与指定语言之间的最佳匹配来执行自动语言识别。NLP 分析不需要预先创建或关联字典或本体，尽管您可以通过添加它们来扩展其功能。
Entity analysis(实体分析)：一个或多个单词的语义群，被称为实体，NLP对其进行操作。实体被定义为Concepts(包括名词和名词短语)或Relations(包括动词和介词)。通常，要考虑的最相关实体是Concepts，但也可以分析Relations。句子和单词始终泾渭分明。忽略字母大小写。
Path analysis(路径分析)：NLP 将Concepts

最低0.47元/天解锁文章