最近在学习《python自然语言处理》,在尝试书上的处理HTML部分的示例时候,报了一些错误,通过百度解决了这些问题。记录一下可以正确运行的代码。
from __future__ import division
import nltk,re,pprint
from bs4 import BeautifulSoup
from urllib import urlopen
url = "https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_14915193279875254281%22%7D&n_type=0&p_from=1"
html = urlopen(url).read()
print html#.decode('utf-8').encode('gbk')
raw = BeautifulSoup(html,"lxml").get_text()
3319

被折叠的 条评论
为什么被折叠?



