Python爬虫小记（三）

最新推荐文章于 2025-08-16 09:42:10 发布

_ToDream

最新推荐文章于 2025-08-16 09:42:10 发布

阅读量306

点赞数

CC 4.0 BY-SA版权

文章标签： html 爬虫 python url utf-8

本文链接：https://blog.youkuaiyun.com/x18835129278/article/details/78045555

python-爬虫专栏收录该内容

6 篇文章

订阅专栏

本文介绍了一个使用Python和BeautifulSoup库从本地HTML文件中提取特定内容的示例。通过定义函数`getContent`，该示例展示了如何解析HTML文件并获取带有特定类属性的`h1`标签内的文本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于电脑太卡，换了个系统，然后下载的python2.7版本。
读取本地html页面中的内容：
Demo01:

# coding=utf-8
from bs4 import  BeautifulSoup
def getContent (url):
    htmlfile=open(url,'r')
    htmlpage=htmlfile.read()
    soup=BeautifulSoup(htmlpage,"html.parser")
    cctag = soup.find_all('h1', attrs={'class': 'test'})
    for i in cctag:
        print i.get_text()
    return None

Demo02:

# coding=utf-8
import  Demo01
url = r'./test.html'
Demo01.getContent(url)

test.html:

<html>
<title>
    test
</title>
<body>
<h1 class="test">
    这是一个小测试
</h1>
</body>
</html>

运行结果：这是一个小测试

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

_ToDream

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫学习手册

资源小站

04-05

3159

like:128-Python 爬取落网音乐 like:127-【图文详解】python爬虫实战——5分钟做个图片自动下载器 like:97-用Python写一个简单的微博爬虫 like:87-爬虫抓取拉勾网职位需求关键词，并生成统计图 like:87-Python爬虫实战（2）：爬取京东商品列表 like:85-python爬虫入门(1):爬万本书籍 like:73-Python爬虫...

一个超级傻的错误--import urllib.request 报错

热门推荐

什么博客？

12-13

4万+

在看了网上的爬虫教程后，我信心满满的写了一个名为urllib.py的文件想试验一下网上的方法，内容很简单：import urllib.requesturl = "http://www.baidu.com" data = urllib.request.urlopen(url).read() data = data.decode('UTF-8') print(data)然而执行以后总是会报错：Trace

参与评论您还未登录，请先登录后发表或查看评论

python简单小记

野孩子的专栏

09-12

592

我的环境windows，editplus，python-2.7.6。 1.带参数输出： list = {'zhang','wang','li','zhao'} for s in list: print('my first name is {0}'.format(s)) 输出结果： ---------- Python ---------- my first name is z

Python学习小记(1)---import小记

weixin_30247307的博客

11-06

125

在这种目录结构下,import fibo会实际导入fibo文件夹这个module 　　 λ tree /F 卷 Programs 的文件夹 PATH 列表卷序列号为 BC56-3256 D:. │ fibo.py │ ├─fibo │ │ __init__.py │ │ │ └─__pycache__ │ __init__.c...

Python爬虫小记

Jialei的博客

06-04

496

前言写的一个爬虫代码，涉及到了利用pandas读写Excel文件，利用BeautifulSoup爬取数据等内容爬取对象雪球网上的部分股票信息 xls文件读取由于从网站上下载下来的数据为.xls格式，所以利用pandas库来读取.xls文件 info_exl = pd.ExcelFile('stock.xls') info_data = pd.read_excel(info_exl, 0) # 获取表xls表中的内容爬取数据由于需要将原文件的数据与新爬取的数据放在同一个表格里，这里采用将新旧

python爬虫小记

weixin_40143316的博客

03-20

212

最近的学习过程中需要用到旅游景点信息，于是找了个旅游网站准备爬取上面的信息。采取的是urllib+正则表达式的方法。遇到的问题是返回的指定项信息为空，原因出在正则表达式上面，粗暴地把整张网页的信息打印了出来，然后找到想要的信息处，直接复制下来后输入正则表达式的匹配处，成功。 ...

python爬虫-逆向实例小记-1

记事本

06-20

1288

从下图可知，f 是key ,h 是偏移量(vi), n 是通过hex 和base64 包装后的一大串内容。第四步：从一大串响应内容到得到页面正常的内容，调用了f m(t)函数, 鼠标放在该位置，会得到相关的.js 文件。某政府网站逆向实例仅作为学习案例，禁止其他个人以及团体做谋利用途！某政府网站逆向实例仅作为学习案例，禁止其他个人以及团体做谋利用途！第三步：通过手动进行下一步会得到每一步的操作后的内容(与调试debug是一样的)第六步：一步一步执行，就可以看到从“乱码”到内容的关键过程。

python爬虫-获取cookie实例小记

记事本

06-29

1998

通过在堆栈处可以看到执行顺序，reload 函数的上一步是匿名函数。第六步：断点处可以看到两个值，分别是_0x23a392和_0x5e8b26。第四步：进入到匿名函数后，可以看到reload（arg2）说明x=arg2 (加载时间很长，无耐心看不到的哦。_0x5e8b26 这个值进行搜索，可以看到是一个常量（不明白的同学，可以私我或者看图自悟）某XX网站逆向实例仅作为学习案例，禁止其他个人以及团体做谋利用途！某XX网站逆向实例仅作为学习案例，禁止其他个人以及团体做谋利用途！第一步：请求拿到响应内容。

python 三七小说爬虫小记

湖南新邑的知识小筑

02-21

494

从爬虫开始学习python，能接触很多基础类型，很久没有写python，脑袋里全是记忆碎片，乘这个时间把之前的东西慢慢拾兜一下，做个记录，基础的同学可以看看。

python爬虫-逆向实例小记-3

记事本

06-27

1452

注意！！！！某数据网站逆向实例仅作为学习案例，禁止其他个人以及团体做谋利用途！！！！

python进行爬虫小记

01-15

Python爬虫技术是一种用于自动化网页数据抓取的编程方法，尤其适合初学者快速入门。Python在爬虫领域具有显著优势，因为其拥有丰富的第三方库，如requests、lxml和parsel等，使得编写爬虫代码变得简洁高效。此外，...

python爬虫-加速乐cookie混淆解析实例小记

07-28

python爬虫-加速乐cookie混淆解析实例小记

HTML第三次作业

2301_81538927的博客

08-13

1153

【代码】html第三次作业。

html二次作业

s20231129的博客

08-15

277

1.完成自己学校的官方网站，动态内容直接贴图即可，至少三个不同的页面。2.自己寻找一个大型的网站，完成至少三个页面，其中必须包含登录页面。

【web站点安全开发】任务4：JavaScript与HTML/CSS的完美协作指南

不羁的博客

08-14

965

本文介绍了JavaScript在前端开发中的核心作用及其与HTML、CSS的协作方式。主要内容包括：1. JavaScript语言特性，通过对比表格展示其与Java在类型系统、面向对象、执行方式等方面的本质区别；2. JavaScript在HTML中的使用方法，包括<script>标签的三种放置位置（head/body/外部文件）；3. 四种常用输出方式（alert/write/innerHTML/console.log）；4. 语法特性比较（变量声明、数据类型、函数定义等）等

HTML 框架：构建网页布局的基石

froginwe11的博客

08-16

378

HTML 框架是一种网页布局技术，它允许开发者将网页划分为多个区域，并对这些区域进行精细的控制。通过使用框架，可以轻松实现网页的标题、导航栏、页脚等部分的布局，提高网页的可用性和用户体验。HTML 框架是网页设计中不可或缺的一部分，它为网页布局提供了强大的支持。通过了解 HTML 框架的种类、应用以及如何使用它们，开发者可以创建更加美观、易用的网页。

【HTML】在页面中画一条0.5px的线

L_xxxxxxx的博客

08-13

256

【HTML】在页面中画一条0.5px的线

html模拟websocket通信