Python 爬虫入门二(标签)

最新推荐文章于 2024-03-29 11:23:53 发布

原创

最新推荐文章于 2024-03-29 11:23:53 发布 · 677 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了Python爬虫中关于HTML标签的基本操作，包括通过标签和样式名获取信息，获取子标签、兄弟标签、父标签的方法，以及如何获取标签的属性。详细讲述了如何使用previous_sibling、next_sibling、previous_siblings和next_siblings来遍历上下级标签内容。

通过标签及样式名获取

# coding=UTF-8
from urllib2 import urlopen, HTTPError
from bs4 import BeautifulSoup


def getName(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return e

    try:
        bs = BeautifulSoup(html.read(), 'html.parser')
        nameList = bs.findAll('span', {'class': 'green'})
        for name in nameList:
            print (name.get_text())                  #get_text()获取标签里的类容
    except AttributeError as e:
        return e


if __name__ == '__main__':
    title = getName('网页URL')

获取指定子标签(打印表格所有的子标签内容)

def getChildren():
    html = urlopen('网页URL')
    bs = BeautifulSoup(html, 'html.parser')
    for child in bs.find('table' , {'id':'list'}).children:
        print (child)

获取兄弟标签(打印表格除第一行标题外的所有标签内容)

def getNext():
    html = urlopen('网页URL')
    bs = BeautifulSoup(htm

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lambda_blank

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python爬虫入门

2301_80913334的博客

04-03

1889

HTTP（Hyper超文本传输协议，是应用层协议，是一种客户端和服务器之间的请求-响应协议，用于从万维网服务器传输超文本到本地浏览器的传送协议。1、写爬虫首先要锁定你所要爬取的数据；2、其次要对比数据之间的差别从而精准识别到所要爬取的数据；3、爬虫需要灵机应变，需要多加练习。null。

Python爬虫入门教程（非常详细）_python爬虫自学

04-27

2034

设k值为3，即每抓取3个页面后，重新计算一次PageRank值。

2 条评论您还未登录，请先登录后发表或查看评论

HTML：爬虫所需HTML知识——标签

shifanfashi的博客

07-02

3304

html标题标签通过 <h1>、<h2>、<h3>、<h4>、<h5>、<h6>,标签可以在网页上定义6种级别的标题。6种级别的标题表示文档的6级目录层级关系，比如说： <h1>用作主标题，其后是 <h2>，再其次是 <h3>，以此类推。搜索引擎会使用标题将网页的结构和内容编制索引，所以网...

数据分析基础——标签法爬虫

2301_77294529的博客

03-29

1001

然后其实后面研究了一下，如果想要简化代码行数的话最好结合正则表达式，找出一些地方相同的表达式就可以大大简化代码了，需要认真的思考，标签法就比较适合想要快速地进行爬取，但是代码量是真的多，如果有人有更好地方法欢迎在评论区里补充！1.爬取思路：首先我找到该学院的网址，然后在首页的教学科研机构找到各学院的名字，然后点开各学院的官网之后主要是去首页的学科建设/专业建设里找有没有写专业设置，如果有的话就爬取，没有的话就列为空集。需要注意的点大致就是这么多了，如果有什么不明白的欢迎在评论区里留言，一起探讨，一起进步！

python知识-爬虫

qq_51171222的博客

04-01

687

使用requests请求数据的流程（1）请求网络数据,requests.get(“请求地址”)（2）设置解码方式（乱码时设置，在获取结果之前设置）（3）获取请求结果。

爬虫基础——html常见标签

m0_74142238的博客

06-18

469

不加CSS修饰的结果如下:

知乎标签详情页爬虫

ghostyusheng 's blog

02-03

1023

#!/usr/bin/env python import requests import MySQLdb import re import json import threading import time from bs4 import BeautifulSoup # from lxml import etree # headers = { # 'Accept':'text/html,

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

03-20

### Python爬虫入门教程知识点详解 #### 一、理解网页结构在进行Python爬虫开发之前，首先要了解网页的基本构成。网页通常包含三个主要部分：HTML（超文本标记语言）、CSS（层叠样式表）以及JavaScript（一种常用...

Python爬虫入门教程：超级简单的Python爬虫教程PDF

最新发布

06-24

Python爬虫入门是网络数据采集领域的一项基础技能，为初学者提供了通过编写程序自动抓取网页内容的能力。随着大数据时代的到来，掌握Python爬虫技术成为了数据分析师、网络工程师以及相关领域技术人员的必备技能之一...

精选资源

Python爬虫入门.zip

05-31

【Python爬虫入门】在信息技术日新月异的今天，数据已经成为了一种重要的资源。Python作为一种简洁且功能强大的编程语言，因其丰富的库支持和易读性，成为了爬虫开发的首选工具。本资料包“Python爬虫入门.zip”...

爬虫注意的两个HTML标签

我叫张大大爷的博客

12-24

779

<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>before</title> <style> p:before { content:"让爬虫怎么爬取 -"; } </style&am

[爬虫入门]BeautifulSoup获取标外内容

shichimiyasatone的博客

02-16

1724

写完后再看了下正则，发现有个简单的方法可以获取，只需替换第4步name_pat = '(<div class="info1">)(.+)(</div>)' #将div分为三组，中间的第二组即为想要的内容 name_re = re.match(name_pat,str(name_tag)) if name_re is not None: print name_...

爬虫提取标签的几种方式

chang995196962的博客

10-25

9070

我最喜欢用两种解析方式 #第一种解析方式 etree+xpath 提取匹配标签 a = &quot;&amp;lt;div class='a'&amp;gt;123&amp;lt;p&amp;gt;1455555&amp;lt;/p&amp;gt;&amp;lt;/div&amp;gt;&quot; from lxml import e

python爬虫爬取标签内容_爬虫之使用requests爬取某条标签并生成词云

weixin_39785858的博客

12-03

2336

一、爬虫前准备1.工具：pychram(python3.7)2.库：random，requests，fake-useragent，json，re，bs4，matplotlib，worldcloud，numpy，PIL，jiebarandom：生成随机数requests：发送请求获取网页信息fake-useragent：生成代理服务器json：数据转换re：用于正则匹配bs4：数据过滤matpotl...

【Python爬虫开发基础⑤】HTML概述与基本标签详解

z135733的博客

06-14

3792

HTML（Hypertext Markup Language）是一种标记语言，用于创建和呈现网页。它是构建网页的基础，并且具有简单易学的语法规则。HTML以标签为基本单位，通过嵌套和属性来描述和格式化网页上的内容和结构。HTML最初由蒂姆·伯纳斯-李（Tim Berners-Lee）在1990年创造，旨在促进信息共享和互联网上各种文档之间的链接。如今，HTML成为了万维网的核心技术之一，被广泛应用于网页制作、网站开发和跨平台内容交互等领域。内容（结构）：是我们在页面中可以看到的数据。我们称之为内容。

Python爬虫——BeautifulSoup，获取HTML中文档，标签等内容

Rain778的博客

09-24

7532

BeautifulSoup，获取HTML中文档，标签等内容

Python：六步教会你使用python爬虫爬取数据

Everly_的博客

10-07

1515

用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。

Python——爬虫（解析简单标签）

小黄鸭的博客

01-14

7269

Python——爬虫（解析简单标签） # -*- coding: utf-8 -*- # 使用BeautifulSoup解析网页 from bs4 import BeautifulSoup #获取要解析的标签 with open('test.html','r',encoding='utf-8') as wb_data: Soup = BeautifulSoup(wb_data,'lxm

Python 爬虫获取标签下面的子标签

weixin_33755554的博客

06-24

4527

thr_msgs = soup.find_all('div',class_=re.compile('msg')) for i in thr_msgs: print(i) first = i.select('em:nth-of-type(1)') print(first) >>> <div class='\"msg\...

Python爬虫入门指南

"Python爬虫入门指南" Python爬虫是一个用于自动化网络数据抓取的技术，它允许程序员从网页中提取大量信息。本指南将带你逐步走进Python爬虫的世界。首先，你需要具备Python编程基础。Python是一种易学易用的编程...