5、自然语言处理：从文本语料到CNN语言模型

最新推荐文章于 2025-12-08 16:00:18 发布

open4

最新推荐文章于 2025-12-08 16:00:18 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏： 9个项目玩转深度学习文章标签：自然语言处理文本语料 word2vec

本文链接：https://blog.youkuaiyun.com/open4/article/details/154632807

9个项目玩转深度学习专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理：从文本语料到CNN语言模型

在自然语言处理（NLP）领域，从原始文本数据中提取有价值的信息是一项关键任务。本文将详细介绍如何从准备文本语料到构建基于CNN和word2vec的语言模型的整个过程。

1. 准备文本语料

为了清理语料库并从中提取相关的独特单词，我们将使用之前训练好的自然语言工具包（NLTK）分词器和英语停用词。同时，创建一个小模块来清理提供的未处理句子集合，输出单词列表。

import nltk
import re

# 下载NLTK分词器模型（仅第一次需要）
nltk.download("punkt")
nltk.download("stopwords")

def sentence_to_wordlist(raw):
    clean = re.sub("[^a-zA-Z]"," ", raw)
    words = clean.split()
    return map(lambda x:x.lower(),words)

# 从古腾堡项目网站加载数据
filepath = 'http://www.gutenberg.org/files/33224/33224-0.txt'
import requests
corpus_raw = requests.get(filepath).text
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
raw_sentences = tokenizer.tokenize(corpus_raw)

# 处理句子，将每个句子转换为单词列表
sentences = []
for r