博主的前几篇有关定向网络爬虫的博客,在解析HTML界面时,都是运用了BeautifulSoup和re库进行解析,这篇博客写一下怎么用Xpath语法进行HTML界面解析,从而得到我们想要的结果。
说明
- 爬取猫眼历史电影榜单,并将结果写入到文件中。
- 放弃使用re和BeautifulSoup,采用Xpath语法进行解析页面。
脚本如下
'''
@Author: Guo Yingwei
@Date: 2019-07-12 00:51:35
@E-mail: willgyw@126.com
@Description:
'''
import requests
from lxml import etree
import codecs
import time
def get_page(url):
try:
kv = {
'User-Agent':'Mozilla/5.0'}
r = requests.get(url, headers = kv)
r.raise_for_status()
r.encoding = r.apparent_encoding