抓取网页

最新推荐文章于 2023-11-05 00:03:29 发布

原创最新推荐文章于 2023-11-05 00:03:29 发布 · 424 阅读

0 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

6 篇文章

订阅专栏

1 正则表达式
import re #导入模块
import urllib #打开链接模块
from urllib import urlopen
info=urlopen(“http://www.imdb.cn/title/tt0107985“).read() #对链接对应网页信息的读取
page=info.decode(“gb2312”).encode(“utf-8”) #需要转码
reg1=r”([^ ]+)” # 用正则表达定义规则
list1=re.compile(reg1).findall(page) #基于规则在页面中搜索

print ‘电影：’
for y1 in list1:
print y1 #输出每一行对应的数据

2 beautifulsoup
是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

安装beautifulsoup，解压到python的安装目录。网上很多教程。我装的是3.x的版本。

from BeautifulSoup import BeautifulSoup 对html解析
url=”http://www.imdb.cn/title/tt0107985”
html=urlopen(url).read()
soup=BeautifulSoup(html)