第15章 Python和Web

本文介绍了一种基于正则表达式的简单屏幕抓取方法,并探讨了使用Tidy和BeautifulSoup等工具进行HTML解析的技术。此外,还概述了几种流行的Python Web开发框架,如Flask、Django等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

15.1 屏幕抓取

#简单的屏幕抓起程序
from urllib.request import urlopen
import re
p = re.compile('<a href="(.*?)">(.*?)</a>')
text = urlopen('http://www.baidu.com').read().decode()
for url,name in p.findall(text):
    print('{}({})'.format(name,url))

1)基于正则表达式的方法
2)使用Tidy库和XHTML解析
3)专为屏幕抓取设计的Beautiful Soup库

15.1.1 Tidy和XHTML解析

1 Tidy是什么
Tidy用于对格式不正确且不严谨的HTML进行修复的工具。

2 获取Tidy

3 为何使用XHTML
XHTML非常严格

4 使用HTMLParser

15.1.2 Beautiful Soup

15.2 使用CGI创建动态网页

15.3 使用web框架
Flask
其他web应用框架:
Django https://djangoproject.com
TurboGears http://turbogears.org
web2py http://web2py.com
Grok https://pypi.python.org/pypi/grok
Zope2 https://pypi.python.org/pypi/Zope2
Pyramid https://trypyramid.com/

15.4 Web服务:更高级的抓取

15.4.1 RSS和相关内容

15.4.2 使用XML-RPC进行远程过程调用

15.4.3 SOAP

15.5 小结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值