17、语言算法：空格插入与短语补全

最新推荐文章于 2025-09-19 09:03:12 发布

mqtt6iot

最新推荐文章于 2025-09-19 09:03:12 发布

阅读量49

点赞数

CC 4.0 BY-SA版权

分类专栏：算法的艺术：从零开始文章标签：语言算法空格插入短语补全

本文链接：https://blog.youkuaiyun.com/mqtt6iot/article/details/151037359

算法的艺术：从零开始专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语言算法：空格插入与短语补全

1. 空格插入算法

在处理文本时，我们可能会遇到一些没有正确插入空格的情况，例如将两个有效单词连在一起形成了一个无效单词。下面我们来详细介绍如何实现一个空格插入算法。

1.1 寻找潜在单词的前后半部分

首先，我们需要找到以空格结尾的单词，这些可能是无效单词的后半部分。代码如下：

partial_words_end = [loc for loc in locs if loc[0] not in spacestarts_affine and loc[1] in spacestarts]

接下来，我们以 “oneperfectly” 为例，插入一个空格。我们定义一个变量 loc 来存储 “oneperfectly” 在文本中的位置：

loc = between_spaces_notvalid[0]

然后，我们需要检查 partial_words 中的单词是否可能是 “oneperfectly” 的前半部分。我们通过以下代码找到与 “oneperfectly” 起始位置相同的所有有效单词的结束位置：

endsofbeginnings = [loc2[1] for loc2 in partial_words if loc2[0] == loc[0] and (loc2[1] - loc[0]) > 1]

同样，我们创建一个变量 beginningsofends 来找到与 “oneperfectly” 结束位置相同的所有有效单词的起始位置：

beginningsofends = [loc2[0] for loc2 in partial_words_end if loc2[1] == loc[1] and (loc2[1] - loc[0]) > 1]

最后，我们使用 intersection() 函数找到 endsofbeginnings 和 beginningsofends 中共同的位置：

pivot = list(set(endsofbeginnings).intersection(beginningsofends))

如果 pivot 中有多个元素，我们选择最小的元素：

import numpy as np
pivot = np.min(pivot)

然后，我们用两个有效单词和一个空格替换原来的无效单词：

textnew = text
textnew = textnew.replace(text[loc[0]:loc[1]],text[loc[0]:pivot]+' '+text[pivot:loc[1]])

1.2 完整的空格插入函数

我们将上述步骤整合到一个函数中：

import re
import numpy as np

def insertspaces(text,word_list):
    locs = list(set([(m.start(),m.end()) for word in word_list for m in re.finditer(word, text)]))
    spacestarts = [m.start() for m in re.finditer(' ', text)]
    spacestarts.append(-1)
    spacestarts.append(len(text))
    spacestarts.sort()
    spacestarts_affine = [ss + 1 for ss in spacestarts]
    spacestarts_affine.sort()
    partial_words = [loc for loc in locs if loc[0] in spacestarts_affine and loc[1] not in spacestarts]
    partial_words_end = [loc for loc in locs if loc[0] not in spacestarts_affine and loc[1] in spacestarts]
    between_spaces = [(spacestarts[k] + 1,spacestarts[k+1]) for k in range(0,len(spacestarts) - 1)]
    between_spaces_notvalid = [loc for loc in between_spaces if text[loc[0]:loc[1]] not in word_list]
    textnew = text
    for loc in between_spaces_notvalid:
        endsofbeginnings = [loc2[1] for loc2 in partial_words if loc2[0] == loc[0] and (loc2[1] - loc[0]) > 1]
        beginningsofends = [loc2[0] for loc2 in partial_words_end if loc2[1] == loc[1] and (loc2[1] - loc[0]) > 1]
        pivot = list(set(endsofbeginnings).intersection(beginningsofends))
        if(len(pivot) > 0):
            pivot = np.min(pivot)
            textnew = textnew.replace(text[loc[0]:loc[1]],text[loc[0]:pivot]+' '+text[pivot:loc[1]])
    textnew = textnew.replace('  ',' ')
    return(textnew)

我们可以使用以下代码测试这个函数：

text = "The oneperfectly divine thing, the oneglimpse of God's paradisegiven on earth, is to fight a losingbattle - and notlose it."
# 假设 word_list 已经定义
print(insertspaces(text,word_list))

输出结果将正确插入空格：

The one perfectly divine thing, the one glimpse of God's paradise given on earth, is to fight a losing battle - and not lose it.

这个算法不仅适用于英语文本，只要我们使用合适的语料库来定义 word_list ，它可以处理任何语言的文本。

1.3 空格插入算法流程

graph TD;
    A[开始] --> B[寻找以空格结尾的单词];
    B --> C[选择一个无效单词];
    C --> D[寻找可能的前半部分单词结束位置];
    D --> E[寻找可能的后半部分单词起始位置];
    E --> F[找到共同位置];
    F --> G[选择最小的共同位置];
    G --> H[替换无效单词];
    H --> I[结束];

2. 短语补全算法

现在，我们来考虑一个搜索引擎的短语补全功能。当用户输入一个短语时，搜索引擎可以提供搜索建议。

2.1 构建 n-gram 列表

我们从一个语料库开始，不仅关注单个单词，还关注单词之间的组合。我们使用 nltk 模块来方便地收集 n-gram。

首先，我们对文本进行分词：

from nltk.tokenize import sent_tokenize, word_tokenize
text = "Time forks perpetually toward innumerable futures"
print(word_tokenize(text))

输出结果为：

['Time', 'forks', 'perpetually', 'toward', 'innumerable', 'futures']

然后，我们可以获取不同长度的 n-gram：

import nltk
from nltk.util import ngrams
token = nltk.word_tokenize(text)
bigrams = ngrams(token,2)
trigrams = ngrams(token,3)
fourgrams = ngrams(token,4)
fivegrams = ngrams(token,5)
grams = [ngrams(token,2),ngrams(token,3),ngrams(token,4),ngrams(token,5)]

2.2 搜索建议策略

我们的策略是，当用户输入一个 n-gram 时，我们找到所有以该 n-gram 开头的 n + 1-gram，并推荐出现频率最高的那个。

以下是具体的步骤：
1. 确定用户搜索词的长度 n 。

from nltk.tokenize import sent_tokenize, word_tokenize
search_term = 'life is a'
split_term = tuple(search_term.split(' '))
search_term_length = len(search_term.split(' '))

统计所有 n + 1-gram 的出现频率。

from collections import Counter
counted_grams = Counter(grams[search_term_length - 1])

找到与搜索词匹配的 n + 1-gram。

matching_terms = [element for element in list(counted_grams.items()) if element[0][:-1] == tuple(split_term)]

选择出现频率最高的 n + 1-gram。

if(len(matching_terms)>0):
    frequencies = [item[1] for item in matching_terms]
    maximum_frequency = np.max(frequencies)
    highest_frequency_term = [item[0] for item in matching_terms if item[1] == maximum_frequency][0]
    combined_term = ' '.join(highest_frequency_term)

2.3 完整的短语补全函数

import nltk
from nltk.util import ngrams
from collections import Counter
import numpy as np

def search_suggestion(search_term, text):
    token = nltk.word_tokenize(text)
    bigrams = ngrams(token,2)
    trigrams = ngrams(token,3)
    fourgrams = ngrams(token,4)
    fivegrams = ngrams(token,5)
    grams = [ngrams(token,2),ngrams(token,3),ngrams(token,4),ngrams(token,5)]
    split_term = tuple(search_term.split(' '))
    search_term_length = len(search_term.split(' '))
    counted_grams = Counter(grams[search_term_length-1])
    combined_term = 'No suggested searches'    
    matching_terms = [element for element in list(counted_grams.items()) if element[0][:-1] == tuple(split_term)]
    if(len(matching_terms) > 0):
        frequencies = [item[1] for item in matching_terms]
        maximum_frequency = np.max(frequencies)
        highest_frequency_term = [item[0] for item in matching_terms if item[1] == maximum_frequency][0]
        combined_term = ' '.join(highest_frequency_term)
    return(combined_term)

我们可以使用以下代码测试这个函数：

import requests
file = requests.get('http://www.bradfordtuckfield.com/shakespeare.txt')
file = file.text
text = file.replace('\n', '')
print(search_suggestion('life is a', text))

不同的语料库可能会产生不同的结果。例如，使用莎士比亚的作品和马克·吐温的作品作为语料库，对 “life is a” 的补全结果会有所不同。

2.4 短语补全算法流程

graph TD;
    A[开始] --> B[输入搜索词];
    B --> C[确定搜索词长度 n];
    C --> D[统计 n + 1-gram 频率];
    D --> E[找到匹配的 n + 1-gram];
    E --> F[选择频率最高的 n + 1-gram];
    F --> G[输出补全短语];
    G --> H[结束];

通过这两个算法，我们可以看到语言算法的强大之处。它们不仅可以处理文本中的错误，还可以根据语料库的内容提供有用的搜索建议。不同的语料库会产生不同的结果，这也反映了语言的多样性和灵活性。

语言算法：空格插入与短语补全（续）

3. 不同语料库对短语补全结果的影响

不同的语料库具有不同的语言风格和词汇偏好，这会显著影响短语补全的结果。以下是使用不同语料库进行短语补全的对比：

语料库	搜索词	补全结果
莎士比亚作品	life is a	life is a tedious
马克·吐温作品	life is a	life is a failure
莎士比亚作品	I love	thee
马克·吐温作品	I love	you

从这个表格中可以看出，莎士比亚的作品风格较为古典，用词相对正式；而马克·吐温的作品则更贴近日常口语，风格更加现代和直白。这种差异导致了相同搜索词在不同语料库下有不同的补全结果。

3.1 语料库选择的重要性

在实际应用中，选择合适的语料库至关重要。如果是为一个研究古典文学的搜索引擎提供短语补全功能，那么使用莎士比亚等古典作家的作品作为语料库会更合适，因为这样的语料库能提供符合古典风格的搜索建议。相反，如果是为一个现代社交平台的搜索功能服务，那么使用现代文学作品、社交媒体文本等作为语料库会更能满足用户的需求。

4. 语言算法的拓展与应用

上述的空格插入算法和短语补全算法只是语言算法的冰山一角，它们可以拓展到更多的应用场景中。

4.1 拼写检查

空格插入算法可以作为拼写检查的一部分。当文本中出现可能的拼写错误（如两个单词连在一起）时，该算法可以尝试插入空格来纠正错误。具体操作步骤如下：
1. 对输入文本进行初步的拼写检查，标记出可能的错误单词。
2. 使用空格插入算法对标记的错误单词进行处理，尝试插入空格。
3. 检查插入空格后的单词是否在合法的单词列表中，如果是，则认为该错误得到纠正。

4.2 意图解析

短语补全算法可以用于意图解析。当用户输入一个不完整的短语时，通过补全短语可以更好地理解用户的意图。例如，当用户在搜索框中输入 “book a” 时，短语补全算法可以根据语料库提供 “book a flight”、“book a hotel” 等建议，从而帮助系统更准确地理解用户想要预订的内容。具体操作步骤如下：
1. 接收用户输入的短语。
2. 使用短语补全算法生成可能的补全短语。
3. 分析补全短语，提取其中的关键信息，以确定用户的意图。

4.3 语言算法拓展应用流程

graph TD;
    A[输入文本] --> B[选择算法类型];
    B --> C{算法类型};
    C -- 拼写检查 --> D[标记可能错误单词];
    D --> E[使用空格插入算法];
    E --> F[检查是否为合法单词];
    F -- 是 --> G[纠正错误];
    F -- 否 --> H[保留错误];
    C -- 意图解析 --> I[接收用户短语];
    I --> J[使用短语补全算法];
    J --> K[分析补全短语];
    K --> L[确定用户意图];