python学习:网页解析
python网页解析工具,可以根据标签特点获取相应标签中的内容。开始没有找到beautifulsoap这个强大的工具,同时也想提升程序的运行效率(自己的程序仅需运行一次),这里自己实现了一个可以根据HTML标签获取到网页元素的程序,这个程序是基于查找的形式对网页解析,没有对网页元素进行分类和归类。
程序基于python3.0,以上版本,分为两大块,webclient、html元素解析,具体的实现如下:
webclient网页获取器
这里采用urllib模块对网页URL进行访问并返回相应的网页信息。
mport urllib
import urllib.request
class HTMLClient:
def GetPage(self, url):
#user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
user_agent = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/34.0.1847.116 Chrome/34.0.1847.116 Safari/537.36'
headers = { 'User-Agent' : user_agent }
req = urllib.request.Request(url, None, headers)
try:
res = urllib.request.urlopen(req)
return res.read().decode("utf-8")
except urllib.erro

本文介绍了使用Python进行网页解析的方法,通过自定义的webclient获取网页内容,并基于HTML标签的特点实现元素解析,着重讲解了如何寻找起始和结束标签来提取数据,最后给出了在剑侠情缘网络版三新闻页面的抓取示例。
最低0.47元/天 解锁文章
904

被折叠的 条评论
为什么被折叠?



