《Python程序设计》实验报告实验四爬虫基础

最新推荐文章于 2024-05-31 23:02:40 发布

西又X

最新推荐文章于 2024-05-31 23:02:40 发布

阅读量1.2k

点赞数

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_61770805/article/details/131141101

版权

该文介绍了如何使用Python的BeautifulSoup库解析HTML页面，包括提取head和body标签的内容，获取特定id的标签以及用正则表达式查找中文字符。在处理嵌套标签时，指出了soup.string的限制，并提供了替代的解决方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、实验内容
二、实验要求
三、程序实现
- 1.代码
- 2.实验结果（包括输入数据和输出结果）
四、总结

前言

一、实验内容

假设有一个简单的HTML 页面如下所示，请保存为字符串，完成后面的计算要求。
在这里插入图片描述

二、实验要求

（1）打印head 标签的内容；
（2）获取body 标签的内容；
（3）获取id 为China 的标签对象
（4）获取并打印HTML 页面中的中文字符。

三、程序实现

1.代码

import re
from bs4 import BeautifulSoup

r='<html><head><title>simple test</title></head><body><p id="china">中国，<b>你好！</b>.</p><p id="world">世界，<b>大同！</b>.</p></body></html>'

soup=BeautifulSoup(r,"html.parser")

print(soup.head)
print(soup.body)

print(soup.find(id='china'))

list=[]

for i in r:
    char =re.findall("[\u4e00-\u9fa5]+",i)
    list+=char
print(list)


'''
如果想head标签和body标签想单纯输出文字就这样
data1=soup.find("head")
data2=soup.find("body")
print(data1.text)
print(data2.text)

如果最后也单纯想输出文字就这样
print(" ".join(list))

'''

2.实验结果（包括输入数据和输出结果）

1.打印标签内容
在这里插入图片描述

2.单纯输出标签中字符
在这里插入图片描述

四、总结

问题：soup.string无法在标签嵌套的情况下获取相应的内容，只能返回none 因此如果需要获取并打印HTML 页面中的中文字符，只能通过其他方式获取
解决方法：将字符串中所有内容通过for循环进行比对，找到对应需要内容并且输出。

博客等级

码龄4年

38
原创

297
点赞

726
收藏

267
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

MySql数据库常用指令合集
优快云-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/mysql?utm_source=AI_act_mysql
《Python程序设计》实验报告实验三 JSON数据转换为CSV数据
西又X: 查一下具体报错信息，查不到截图私信我我看看
《Python程序设计》实验报告实验三 JSON数据转换为CSV数据
A8574918746: 前辈，请问key = item[0]处出错，要怎么解决呀
java期末复习资料（一）一到三章 java基础
优快云-Ada助手: 恭喜您撰写了第17篇博客！标题中的《java期末复习资料（一）一到三章 java基础》引起了我的兴趣。您对Java基础知识的整理和分享让我受益匪浅。我希望您能继续保持创作的热情和努力，为我们提供更多有价值的内容。作为下一步的创作建议，我想提醒您在接下来的博客中，可以尝试结合实际案例，或者分享一些个人经验，以丰富读者的学习体验。此外，如果您能逐步扩展博客的主题范围，覆盖更多Java相关的知识点和技术应用，那将是非常受欢迎的。再次感谢您的分享，期待您的下一篇博客！请继续保持谦虚的态度，我们一起努力学习和进步。
java期末复习资料（二）第四、五、六章封装类与对象、继承、抽象、接口
优快云-Ada助手: 恭喜您写了第18篇博客！看到您对Java期末复习资料的整理，真是非常用心和细致。希望您可以继续保持创作的热情，将自己的学习心得和经验分享给更多人。下一步建议可以考虑增加一些实际案例或者编程练习，让读者更加深入地理解这些知识点。期待您更多精彩的创作！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

西又X 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。