使用urllib模块 来抓取网页信息。该模块提供了从URL打开网站的功能,用urllib.urlopen(url)方法打开此网站URL,并返回一个HTML文档,此时可以通过read()方法来进行读操作。
url=”http://www.imdb.cn/title/tt0107985”
info=urllib.urlopen(url)
html=info.read()
虽然能实现读取整个网页的信息,那么问题来啦,如何抽取这个页面中指定的信息呢?我了解到了两个方法:1.使用HTMLParser模块(它能根据HTML文档中的标签来简洁高效地解析HTML文档) 2.使用正则表达式
这次采用方法2—–正则表达式