NLTK 处理HTML

最新推荐文章于 2025-07-21 11:02:23 发布

原创最新推荐文章于 2025-07-21 11:02:23 发布 · 687 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #nltk

python自然语言处理专栏收录该内容

1 篇文章

订阅专栏

最近在学习《python自然语言处理》，在尝试书上的处理HTML部分的示例时候，报了一些错误，通过百度解决了这些问题。记录一下可以正确运行的代码。

from __future__ import division
import nltk,re,pprint
from bs4 import BeautifulSoup
from urllib import urlopen
url = "https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_14915193279875254281%22%7D&n_type=0&p_from=1"
html = urlopen(url).read()
print html#.decode('utf-8').encode('gbk')
raw = BeautifulSoup(html,"lxml").get_text()