抓取网页

1 正则表达式
import re #导入模块
import urllib #打开链接模块
from urllib import urlopen
info=urlopen(“http://www.imdb.cn/title/tt0107985“).read() #对链接对应网页信息的读取
page=info.decode(“gb2312”).encode(“utf-8”) #需要转码
reg1=r”([^ ]+)” # 用正则表达 定义规则
list1=re.compile(reg1).findall(page) #基于规则 在页面中搜索

print ‘电影:’
for y1 in list1:
print y1 #输出每一行对应的数据

2 beautifulsoup
是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

安装beautifulsoup,解压到python的安装目录。网上很多教程。我装的是3.x的版本。

from BeautifulSoup import BeautifulSoup 对html解析
url=”http://www.imdb.cn/title/tt0107985”
html=urlopen(url).read()
soup=BeautifulSoup(html)

print BeautifulSoup(html).prettify() #整理过的html页面
Title=soup.title.string #输出标题中的字符串
print soup.head.contents #

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值