python自然语言处理-读书笔记4

最新推荐文章于 2024-04-10 15:24:46 发布

原创最新推荐文章于 2024-04-10 15:24:46 发布 · 217 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #自然语言处理

个人学习整理同时被 2 个专栏收录

43 篇文章

订阅专栏

python文本处理

16 篇文章

订阅专栏

本文探讨了如何从网络和本地资源获取文本数据，包括电子书、新闻网站、RSS订阅等，介绍了使用Python的nltk库进行文本处理的方法，如分词、去除HTML标签、文本切片等操作。并通过实例展示了从不同来源读取、处理和分析文本的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

# -*- coding:utf-8 -*-
# __author__ = 'lipzhang'
import nltk, re, pprint
#从网络和硬盘访问文本
#电子书
from urllib.request import urlopen
from bs4 import BeautifulSoup
# url = r'https://www.gutenberg.org/files/2554/2554-0.txt'#从网络上阅读小说罪与罚
# proxies = {'http': 'http://www.someproxy.com:3128'}
# raw =urlopen(url).read()
# raw=raw.decode('utf-8')
# print(len(raw))
# print(raw[:75])
# tokens = nltk.word_tokenize(raw)
# text = nltk.Text(tokens)
# print(text)
# print(raw.find("PART I"))
# print(raw.rfind("End of Project Gutenberg's Crime"))
# raw = raw[5303:-1]
#print(raw)

#处理HTML
# url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
# html = urlopen(url).read()
# print(html[:60])
# raw = BeautifulSoup(html,'html').get_text()
# print(raw)
# tokens = nltk.word_tokenize(raw)
# print(tokens)
# tokens = tokens[96:399]
# text = nltk.Text(tokens)
# print(text)
# print(text.concordance('gene'))


#处理搜索引擎的结果

#处理 RSS 订阅
# import feedparser
# llog = feedparser.parse("http://languagelog.ldc.upenn.edu/nll/?feed=atom")
# print(llog['feed']['title'])
# post = llog.entries[2]
# print(post.title)
# content = post.content[0].value
# print(content[:70])
#
# content=nltk.word_tokenize(BeautifulSoup(content,'html').get_text())#去除html标签
# print(content[:70])
#
# st=nltk.word_tokenize(BeautifulSoup(llog.entries[2].content[0].value,'html').get_text())
# print(st)


#读取本地文件和语料库文件名
path = nltk.data.find('corpora/gutenberg/melville-moby_dick.txt')
raw = open(path, 'rU').read()#'r'意味着以只读方式打开文件（默认），'U'表示“通用”，它让我们忽略不同的换 行约定。
print(raw)

#从PDF 、MS Word及其他二进制格式中提取文本
#使用pypdf2
#捕获用户输入
s = input("Enter some text: ")
print("You typed", len(nltk.word_tokenize(s)), "words." )

#NLP处理一般流程 处理流程 ：打开一个 URL， 读里面 HTML 格式的内容 ， 去除标记 ， 并选择字符 的 切 片 ，然后分词 ，是否转换为 nltk.Text 对象是可选择的 。我们也可以将所有词汇小写并提取 词汇表