初学python爬虫解析问题，获取文字

最新推荐文章于 2024-09-10 16:54:07 发布

在偏一点就进了

最新推荐文章于 2024-09-10 16:54:07 发布

阅读量181

点赞数 2

文章标签： python 爬虫开发语言

本文链接：https://blog.youkuaiyun.com/weixin_47419038/article/details/137266526

版权

代码

import requests
import string
from bs4 import BeautifulSoup
headers ={"User-Agent":"xxx"}
url="xxx"
response=requests.get(url,headers=headers)
print(response.status_code)
contrnt=response.text
##rint (contrnt)
soup=BeautifulSoup(contrnt,"html.parser")

ret_pl2=soup.findAll("div" ,attrs={"class":"pl2"})
##print(ret_pl2)
result=[]
for p12 in ret_pl2:
    ret = p12.findAll("a", attrs={"class": ""})
    for re in ret:
        print(re)
        ##print(re.string)

打印结果

<a class="" href="https://xx.com/subject/35426925/">
想要提取的文字
/ <span style="font-size:13px;">不想要的文字</span>
</a>

用 print(re.string) 打印的结果是 None

我就想提取我想要的文字应该用什么方法获取

我自己感觉就是现在标签里面有2处文字他不知道获取哪个了就打印的 “None” 求解答

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

在偏一点就进了

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

数据爬虫（五）：爬虫BeautifulSoup库的基本使用

Weiker的博客

01-22

1138

正则表达式的使用容易理解，但是要求匹配的的语法精度高，在匹配时，不能出现一点错误，如果错误就会匹配失败。我自己在写爬虫的时候就出现的这样的情况，一个关于爬取猫眼电影的爬虫，爬取的内容不多不少：后面找到了一个笨方法：我匹配一个运行一次，这样能保证准确率，但是对于大型爬虫自然就不能见效了（大型爬虫我相信很少使用正则），今天介绍一个比正则强大的解析库 ——Beautiful Soup 一、B...

python span 抓取_如何用python爬取两个span之间的内容

weixin_39607240的博客

02-19

4498

Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能，此文中所有的功能都是基于BeautifulSoup这个包。1 Pyhton获取网页的内容(也就是源代码)page = urllib2.urlopen(url)contents = page.read()#获得了整个网页的内容也就是源代码print(conte...

1 条评论您还未登录，请先登录后发表或查看评论

为什么find不到数据？

2301_79698214的博客

09-10

387

在BeautifulSoup的find方法中，class参数是用来匹配HTML标签的class属性的。div = soup.find('div', class_='pc_temp_songlist pc_rank_songlist_short')上面的语句中，class的两个参数之间有两个空格，是soup无法find到数据的原因么？soup.find('div', class_="pc_1 pc_2 pc_3")这样的语句中，class三个参数之间有空格，是soup无法find到数据的原因么？

Python 爬虫：教你四种姿势解析提取数据

weixin_68789096的博客

05-12

9044

爬取网页数据用正则表达式的话，可以直接从网页源代码文本中匹配，但出错率较高，且熟悉正则表达式的使用也比较难，需要经常翻阅文档。实际爬取数据大多基于 HTML 结构的 Web 页面，网页节点较多，各种层级关系。可以考虑使用 Xpath 解析器、BeautifulSoup解析器、PyQuery CSS解析器抽取结构化数据，使用正则表达式抽取非结构化数据。Xpath：可在 XML 中查找信息；支持 HTML 的查找；通过元素和属性进行导航，查找效率很高。

python获取职位信息

u010719791的专栏

02-28

1371

51job获取完整代码： import requests from bs4 import BeautifulSoup import datetime import json import xlwings as xw from selenium import webdriver import time import pandas as pd from selenium.webdriver import Chrome, ChromeOptions, ActionChains from selenium.w.

正则表达式findall查html,python正则表达式findall<span>

weixin_39846089的博客

06-02

337

您的原始代码按原样工作。不过，您应该使用HTML解析器。在import rep = re.compile('(.*?)\', re.IGNORECASE)z = 'foo'text = re.findall(p, z)print text输出：^{pr2}$编辑正如蒂姆指出的，应该使用re.DOTALL，否则下面的方法将失败：import rep = re.compile('(.*?)\', re...

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

03-20

### Python爬虫入门教程知识点详解 #### 一、理解网页结构在进行Python爬虫开发之前，首先要了解网页...通过以上内容的学习，初学者可以快速掌握Python爬虫的基本操作和技术要点，为后续更深入的学习打下坚实的基础。

python爬虫实例之获取动漫截图

09-16

在本篇【Python爬虫实例之获取动漫截图】中，我们将学习如何利用Python编写一个简单的爬虫程序，从特定网站抓取动漫截图。这个实例主要适用于那些已经对Python有一定了解，想要进一步探索网络爬虫技术的读者。我们将...

Python爬虫学习之获取指定网页

09-18

Python爬虫获取指定网页源码的基础知识点主要涉及Python编程语言以及网络爬虫的基本原理和技术。以下是针对标题和描述中知识点的详细说明： 1. Python编程基础：Python是一种高级编程语言，它以其简洁的语法和强大...

爬虫代码实例源码大全+Python 爬虫Scrapy课件源码.zip

03-27

"爬虫代码实例源码大全（纯源码不带视频的实例）"这部分是学习Python爬虫的重要资料。源码实例通常包括了各种常见的爬虫应用场景，如爬取网页HTML内容、解析JSON或XML数据、处理JavaScript加载的内容、登录验证、...

python爬虫实战项目开发源码资源.zip

最新发布

12-05

在众多Python爬虫项目中，一个名为“spider-master”的项目脱颖而出，成为一个备受关注的实战开发资源。通过深入研究和分析该项目的源码，我们可以获得宝贵的学习经验，并在实战中提升我们的编程和数据处理能力。 ...

python爬虫（1.find和findAll函数提取文本）

dawen1937的博客

12-29

2万+

from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") bsObj = BeautifulSoup(html) #根据css样式表查找 nameList = bsObj.findAll(

python找出值的属性_在Python中查找span标记内的多个属性

weixin_35370061的博客

01-14

855

根据docs,假设Beautiful Soup 4,使用像’sp starGryB’这样的字符串匹配多个CSS类是脆弱的,不应该这样做：soup.find_all('span', {'class': 'sp starGryB'})# [2.9]soup.find_all('span', {'class': 'starGryB sp'})# []soup.select('span.sp.starGr...

python span镶嵌匹配,在Python的span标记中查找多个属性

weixin_36393674的博客

12-05

241

There are two values that i am looking to scrape from a website. These are present in the following tags:4.12.9I need the values sp starBig, sp starGryB.The findAll expression that i am using is -soup...

python 爬取<span></span>中间标签的内容

sxf_123456的博客

12-24

2万+

# python 爬取<span></span>中间标签的内容 html = """ <div> <span class='red'>item1</span> <div> <span id='s1'>item2</span> </div> </...

python正则(2)group/start/end/span方法

skywf的博客

02-27

2万+

本节主要介绍如何搞定re.match等返回的对象上一节我们说到使用了re.match()后返回的是一个&lt;_sre.SRE_Match object; span=(0, 5), match=‘jilao’&gt;的东西，那么怎么处理它呢？直接给出一段简单的代码，然后讲解他们的作用(span英译为跨度是不是不太好~) import re a = r"umji" match = re.sea...

Python获取网页指定内容(BeautifulSoup工具的使用方法)