Python使用Xpath轻松爬虫（脑残式）

最新推荐文章于 2020-06-28 14:00:31 发布

weixin_33911824

最新推荐文章于 2020-06-28 14:00:31 发布

阅读量68

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫 python 开发工具

原文链接：http://www.cnblogs.com/ZaraNet/p/9938347.html

本文介绍如何在PyCharm中利用lxml和requests库进行网页数据抓取。首先，需在PyCharm中安装lxml库。接着，通过requests库获取网页源代码。然后，使用lxml解析源码并提取所需数据。示例代码展示了如何提取百度首页特定元素的文本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.在PyCharm安装lxml.

2.找到源码

3.F12、copy源码的xpath

4.代码

from lxml import etree
import requests

wb_data = requests.get("https://www.baidu.com/").text
html = etree.HTML(wb_data)
html_data = html.xpath('//*[@id="lh"]/a[2]');
for i in html_data:
    print(i.text)

转载于:https://www.cnblogs.com/ZaraNet/p/9938347.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33911824

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

万字博文教你python爬虫XPath库【详解篇】

孤寒者的博客

09-29

58万+

万字博文教你python爬虫XPath库【详解篇】

手把手教你使用python爬虫之xpath

景天科技苑

12-29

1万+

xpath表达式如何理解？html中的标签是遵从树状结构的。切记:xpath表达式中最好不要出现tbody标签，因为tbody标签可能是浏览器加的，可以通过查看网页源代码判断是否是真实的tbody！tbody可能是源代码自带的，也有可能是浏览器添加的可以通过右键，查看页面源代码，确定tbody是不是浏览器添加的，如果源代码中有tbody，那就时源代码中包含的如果没有那就是浏览器添加的使用方法。

参与评论您还未登录，请先登录后发表或查看评论

爬虫之xpath

学前班的博客

03-24

412

一、xpath的语法 xpath是用来对XML文件进行解析的。针对如下的XML文件： Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 XQuery Kick Start James M

【菜鸟学Python】爬取果壳问答

weixin_30611509的博客

09-06

271

爬取流程 1.确定url 2.请求url 3.使用xpath处理数据 4.保存数据 import time import json import requests from lxml import etree class GuoKe(object): def __init__(self): self.base_url = 'htt...

网络爬虫--12.【XPath实战】获取百度贴吧中的图片

fanxindong0620的博客

05-02

384

用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。 #coding=utf-8 import requests from lxml import etree import json class Tieba: def __init__(self,tieba_name): self.tieba_name = t...

Python爬虫(十三)_案例：使用XPath的爬虫

weixin_30807677的博客

12-11

128

Python中XPath爬虫实例详细解析

最新发布

07-15

本文主要通过具体的实例来演示如何使用Python进行XPath爬虫的编写。首先，你需要了解如何在Python环境中安装和配置lxml库，或者如何利用BeautifulSoup来解析HTML文档。在安装好这些库之后，我们可以编写一个简单的...

python 中xpath爬虫实例详解

09-18

主要介绍了python实例：xpath爬虫实例,本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下

Python使用xpath爬取网站数据

04-03

本文将详细介绍如何利用Python结合XPath技术进行网站数据的爬取。首先，我们需要了解Python语言的基础知识。Python是一种解释型、面向对象、高級语言，其语法简洁明了，易于学习和使用。它拥有强大的标准库支持，...

爬虫之Xpath案例

weixin_30901729的博客

03-05

280

案例：使用XPath的爬虫现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。 # tieba_xpath.py #!/usr/bin/env python # -*- coding:utf-8 -*- import os import urllib import urllib2 from lxml...

爬虫04_数据解析之xpath

qq_40272386的博客

04-09

258

环境安装：这里我们主要 # pip install lxml

果壳问答

qq__205232573的博客

03-28

702

import requests import json import re headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36' } link = 'h...

Selenium+xpath爬取简书

JCY58的专栏-软件测试服务网

05-03

588

from selenium import webdriver import time from lxml import etree import pymysql driver = webdriver.Chrome() driver.get('https://www.jianshu.com/') #加载更多 def load_mord(num): #通过观察发现，打开页面需要鼠标滑动大概...

python XML实例

axg81207的博客

08-22

303

爬虫之数据提取方法（二、xpath提取）

06-23

3010

目录数据提取之xpath1 为什么要学习xpath和lxml2 什么是xpath3 认识xml3.1 html和xml的区别3.2 xml的树结构4 xpath的节点关系4.1 xpath中的节点是什么4.2 xpath中节点的关系5 xpath中节点选择的工具6 xpath语法6.1 选取节点6.2 查找特定的节点6.3 选取未知节点6.4 选取若干路径数据提取之xpath 1 为什么要学习xpath和lxml lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来

chrome 浏览器copy xpath巨坑