Python网页抓取：获取页面中某段内容的xpath

最新推荐文章于 2024-09-13 16:31:32 发布

原创

最新推荐文章于 2024-09-13 16:31:32 发布 · 1.2w 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #import #url #header #windows #.net

本文介绍如何使用Python的lxml模块来抓取网页内容，特别是通过XPath定位谷歌翻译的译文。首先获取XPath路径，然后批量下载网页，通过XPath提取所需信息。示例代码展示了从谷歌翻译API获取译文的XPath并提取内容。

在批量抓取网页内容时，我经常采用的做法是：1、得到目标内容在网页中的位置，即xpath路径；2、批量下载网页，然后利用xpath，取出每个网页中所需要的内容。

在这里，我们利用python模块lxml。

以谷歌翻译为例，我要批量抓取翻译内容，那么首先我要知道译文的xpath，代码如下：

import urllib,urllib2 import lxml import lxml.html as HTML import lxml.etree as etree #设置url参数 lin = 'en' lout = 'zh-CN' text = 'my apple 123' values = {'hl':'zh-CN', 'ie':'UTF-8', 'text':text, 'sl':lin, 'tl':lout} url = 'http://translate.google.cn/translate_t' data = urllib.urlencode(values) req = urllib2.Request(url, data) req.add_header('User-Agent', "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)") response = urllib2.urlopen(req, timeout = 10) shtml = response.read() response.close() hdoc = HTML.fromstring(shtml) htree = etree.ElementTree(hdoc) #依次打印出hdoc每个元素的文本内容和xpath路径 for t in hdoc.iter(): print htree.getpath(t)