Beautiful Soup 解析html表格

最新推荐文章于 2022-07-09 09:53:35 发布

bankelei6741

最新推荐文章于 2022-07-09 09:53:35 发布

阅读量348

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/BeyondTechnology/p/10203487.html

版权

from bs4 import BeautifulSoup
import urllib.request
doc = urllib.request.urlopen('http://www.bkzy.org/Index/Declaration?intPageNo=1')
doc = doc.read().decode('utf-8')

soup = BeautifulSoup(doc, "html.parser")

school = 0
pro_code = 1
pro_name = 2
xuewei = 3
pdf = 4


# find_all 查到所有tr列表
for tr in soup.find_all('tr',):
　　# 在每个tr找td
    td = tr.find_all('td')
    try:
        print('%s_%s_%s_%s.pdf' % (
            td[school].text.strip(),
            td[pro_code].text.strip(),
            td[pro_name].text.strip(),
            td[xuewei].text.strip())
            ,td[pdf].find('a')['href'])
    except IndexError as e:
        pass

转载于:https://www.cnblogs.com/BeyondTechnology/p/10203487.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bankelei6741

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python使用Beautiful Soup解析html获取元素并提取内容值

qq_40985985的博客

03-09

947

【代码】Python使用Beautiful Soup解析html获取元素并提取内容值。

python爬虫之数据提取——Beautiful Soup

sjjsaaaa的博客

12-16

721

Beautiful Soup Beautiful Soup提供一些简单的，python式的函数来处理导航、索引、修改分析树等功能。他是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转成Unicode编码，输出文档转换为utf-8编码，不需要考虑编码方式，除非文档没有指定一个编码方式。 Beautiful Soup是一个出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。 Beautif

参与评论您还未登录，请先登录后发表或查看评论

BeautifulSoup解析html表格

guxue365的专栏

05-08

2953

用BeautifulSoup解析html表格 http://www.voidcn.com/article/p-eooarkay-wa.html for idx, tr in enumerate(soup.find_all('tr')): if idx != 0: tds = tr.find_all('td') data_list.append({ '船名': tds[0].contents[0], '航次': tds[...

用BeautifulSoup解析html表格

BrownWong的专栏

11-25

3万+

假设我们网页上有如下表格：我们要用bs4来解析它，来获得想要的字段：Code Example:from bs4 import BeautifulSouphtml = """ <table> <tr> <td>船名</td> <td>航次</td> <td>提单号</td> <td>箱号</td> <td>报关单号

使用beautifulsoup解析网页爬取的表格信息

wyquin的博客

03-18

1万+

我们爬取百度百科上一首歌的获奖记录表格：格式如下：想要成 2015年3月30日-东方风云榜-动感101年度金曲-《匆匆那年》的统一格式，需要注意倒数两行的字段缺省情况。同样需要提取出缺省的字段。借助beautiful soup解析并提取。 import re from bs4 import BeautifulSoup def load_file(filepath...

数据解析：Beautiful Soup的使用

旧人小表弟的博客 - 无业游民学习笔记

09-27

567

简介和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是解析和提取 HTML/XML 数据。 lxml只是局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的

学习 Python 的 Day14，BeautifulSpou4解析页面（爬虫）

qq_67780151的博客

07-09

346

BeautifulSpou4解析页面（爬虫）

使用 Beautiful Soup 解析网页；

06-02

Beautiful Soup 是一个用于网页解析的 Python 库，可以方便地从 HTML 或 XML 文件中提取数据。下面是一个简单的例子，演示如何使用 Beautiful Soup 解析网页：首先，需要安装 Beautiful Soup 库。在命令行中执行...

解析HTML文档：Beautiful Soup库实战

HTML文档解析基础 HTML（HyperText Markup Language）是一种用于创建网页的标记语言，由一系列标签组成，描述了网页的结构和内容。在信息技术领域，解析HTML文档是一项常见的任务，用于从网页中提取所需的信息。 ...

解析HTML页面内容：Beautiful Soup库详解

本章将从HTML页面的结构、解析的重要性以及常见的HTML解析工具等多个方面对HTML页面解析进行概述。接下来我们分别展开讨论。 ## 1.1 HTML页面结构简介 HTML页面由多个标签（tag）组成，标签可以包含文本、图片、...

python 爬虫前奏三 Beautiful Soup的使用

朗朗上口就行啦的博客

10-01

463

1、Beautiful Soup简介简单来说，Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。你不需要考虑编码方式，除非文档没有指定一个

Python中BeautifulSoup库的用法

热门推荐

阎松的博客

07-23

24万+

BeautifulSoup简介 Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换...

Beautiful Soup库入门(标签树、基本元素、遍历、输出)

MilkLeong的博客

05-16

3615

本文为北理嵩天老师《Python网络爬虫与信息提取》学习笔记。本文含有以下内容：一、BeautifulSoup库、html文档、标签树三者间关系二、使用Beautiful Soup库最基本的语句：三、BeautifulSoup类的基本元素四、HTML树形结构有三种遍历方法：五、基于bs4库的HTML格式输出 Beautiful Soup库能够对提供给它的任何格式进行爬取，并且进行属性解析。在爬虫中，常被用来解析html和xml页面。一、BeautifulSoup库、html文档、标签树三者间关系 Bea

Beautiful Soup属性和方法及文档

滴水石穿

07-04

1079

Beautiful Soup属性和方法

手把手教你用 Python 搞定网页爬虫

lsxxx2011的专栏

09-18

1176

编译：欧剃作为数据科学家的第一个任务，就是做网页爬取。那时候，我对使用代码从网站上获取数据这项技术完全一无所知，它偏偏又是最有逻辑性并且最容易获得的数据来源。在几次尝试之后，网页爬取对我...

Python爬虫 —— 使用BeautifulSoup4解析HTML文档

小菜鸡的小博客

03-31

1万+

我们来聊聊BS4是个啥，它能干啥，BS4是一个从HTML和XML文件中提取数据的python库，它可以将复杂HTML文件转换为一个复杂的树形结构，这棵树的每一个结点都是Python对象，所有对象都可以归纳为4类，这四个对象能干啥呢？点进来看看吧

python : BeautifulSoup 网页 table 解析范例

belldeep的专栏

02-08

3万+

python BeautifulSoup 网页 table 解析范例

Python 通过 BeautifulSoup 将 html 中的表格解析成对象

After 95

08-28

1万+

Python 通过 BeautifulSoup 解析网页数据并且转换成对象

Beautifulsoup 网页表格的解析

数据科学汇集

04-27

1399

Beautifulsoup 网页表格的解析众所周知网页的表格标签里的文本需要按照表格的大小逐行逐列解析才能得到结构化的数据否则得到的内容则会错位。原始网页: 代码示例： if len(potentialtable) > 0: ##print(str(tableCont...