1 正则表达式
import re #导入模块
import urllib #打开链接模块
from urllib import urlopen
info=urlopen(“http://www.imdb.cn/title/tt0107985“).read() #对链接对应网页信息的读取
page=info.decode(“gb2312”).encode(“utf-8”) #需要转码
reg1=r”([^ ]+)” # 用正则表达 定义规则
list1=re.compile(reg1).findall(page) #基于规则 在页面中搜索
print ‘电影:’
for y1 in list1:
print y1 #输出每一行对应的数据
2 beautifulsoup
是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。
安装beautifulsoup,解压到python的安装目录。网上很多教程。我装的是3.x的版本。
from BeautifulSoup import BeautifulSoup 对html解析
url=”http://www.imdb.cn/title/tt0107985”
html=urlopen(url).read()
soup=BeautifulSoup(html)
print BeautifulSoup(html).prettify() #整理过的html页面
Title=soup.title.string #输出标题中的字符串
print soup.head.contents #
234

被折叠的 条评论
为什么被折叠?



