Python爬虫学习

最新推荐文章于 2025-12-05 17:02:52 发布

原创最新推荐文章于 2025-12-05 17:02:52 发布 · 186 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

python爬虫专栏收录该内容

1 篇文章

订阅专栏

博客围绕Python爬虫学习中的小问题展开。一是遇到URL中有动态更新内容（如页码变动），需用URL格式化拼接；二是使用fp.write()写入内容返回空文件，原因是写入后未关闭文件，要在结尾加fp.close()，且注意其与for循环同级，对int类型要转换为字符串拼接。

Python爬虫学习遇到的小问题

1.如何处理当遇到url里面有需要动态更新的内容（如页码变动）？

需要使用url格式化拼接：

#page_num写在for循环里面，每次需要更新
page_num +=1
url = “https://www.baidu.com/%d”
new_url = format（url % page_num）

2.使用fp.write()写入内容时，返回空文件？

原因：写入文件后未关闭文件！需要在结尾处加上fp.close()

#这是爬取58二手房源的那个例子
fp = open('58二手房源xa.txt','w',encoding='utf-8')
for li in li_list:
    title = li.xpath(".//h2[@class='title']/a/text()")[0]
    house_num +=1
    fp.write(str(house_num)+'.'+title+'\n'')
fp.close()

其中，有两点需要注意：
（1）fp.close()跟for循环在同一级！
（2）由于house_num是int类型，不能进行字符串拼接，所以要使用str(house_num)转换类型！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

0cp

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫使用函数

error311的博客

10-31

1782

1.open() 函数：打开文件 2.write() 函数：写入内容 3.close()函数：关闭文件 sp = open("D:/Python/Spyder/spyder.txt", "w") #打开文件 sp.write("os") #向文件中写入内容 sp.close() #关闭文件 4.read()函数：读取文件所有内容 sp = open("D:/Python/Spy...

关于python文件操作

东方匠心的专栏

05-13

734

园博问闪存联系订阅随笔-483 文章-260 评论-670 关于python文件操作总是记不住API。昨晚写的时候用到了这些，但是没记住，于是就索性整理一下吧： python中对文件、文件夹（文件操作函数）的操作需要涉及到os模块和shutil模块。得到当前工作目录，即当前Python脚本工作的目录路径: os.getcwd(

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

不正经的kimol君 2020.12.02
在最美的年华，做最好的自己，加油！

Python 爬虫学习路线

qq_46634307的博客

05-07

1598

超牛逼！Python爬虫学习的完整路线推荐_爬虫三部曲

2401_84139697的博客

05-02

2740

商机发现：招投标情报发现、客户资料发掘、企业客户发现等进行爬虫学习，首先要懂得是，那些我们肉眼可见的光鲜亮丽的网页是由这些源码被浏览器所识别转换成我们看到的网页，这些源码里面必定存在着很多**。**无规矩不成方圆，就是爬虫中的规矩，它告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。通常是一个叫作robots.txt的文本文件，放在网站的根目录下。**“获取数据——解析数据——存储数据”**是爬虫的三部曲，大部分爬虫都是按这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

超详细Python爬虫学习路线

Saki_Python的博客

10-27

1500

Python爬虫学习路线主要包括基础知识、爬虫库、数据库和策略等方面。通过学习这些知识，我们可以有效地爬取Web信息，提高数据处理效率。

python爬虫学习32

szshiquan的博客

04-23

2921

python爬虫学习32 Beautiful soup 其三目录python爬虫学习32Beautiful soup 其三七、方法选择器7-1 find_all方法name 字段attrs 字段text 字段7-2 find 七、方法选择器之前我们学习的方法都是基于属性来选择的，这实际上是非常不方便的，因为在选取某个特定节点的时候pycharm就不给提示了。。。这时候我们就可以使用Beautiful Soup为我们提供的一些查询方法，例如find_all和find等，然后传入响应的参数就可以进行更加灵活

Python 爬虫学习路线：从入门到精通

源滚滚编程

01-11

1941

通过本文的学习路线，你可以从 Python 爬虫的入门到精通，逐步掌握爬虫的核心技能。无论是初学者还是资深开发者，爬虫技术都能为你打开一扇通往数据世界的大门！最后一个小幽默爬虫就像是互联网的“数据矿工”，每天都在挖掘数据的金矿。希望你能成为一个优秀的“数据矿工”，挖到属于自己的宝藏！如果你有任何问题或想法，欢迎在评论区留言讨论！

Python爬虫学习路线（非常详细）

m0_74942241的博客

11-07

1957

这个故事，从头讲起。 2022 年上班第一天，我们做了一个重要决定，就是打造精品学习路线，为初学者指明前进的方向，以及常见的避坑技巧。我承认这是一件非常有挑战的事情，它考验的是一个程序员的综合实力。这个程序员最好是一个 T 型人才，既对某个领域有深入的研究，也对其它技能有所涉猎。因为要深度思考，因为要持续学习，因为要请教大佬，所以咱们学习路线的创作周期被不断拉长。截至目前，咱们一共发布了两套学习路线，分别是： - C/C++ 学习路线之 Windows 开发 - Java 学习路线完整版（

python爬虫学习34

szshiquan的博客

05-03

3478

python爬虫学习34 目录python爬虫学习34九、parsel 库的使用其一9-1、parsel 库的下载9-2、初始化9-3 提取文本今天呢就进入到爬虫网页数据解析提取的最后一个小节，与大家一同学习parsel库的使用，由于博主本身对Web编程不甚了解，所以CSS选择就浅显的了解了一下，pyquery库大家感兴趣就自己学习吧。九、parsel 库的使用其一前几节我们共同学习了Xpath语言，一同了解了lxml与beautiful soup库的基本用法。现在不管是使用Xpath还是CSS选择器

Python爬虫学习路线教程：从零基础到入门

2301_78150559的博客

08-30

2077

在数字化时代，信息如潮水般汹涌而来，如何从海量数据中快速、准确地获取所需信息成为了许多人的需求。Python爬虫作为一种强大的数据收集工具，因其简洁的语法和丰富的第三方库支持，成为了众多开发者和数据分析师的首选。本教程旨在为零基础的学员提供一条清晰的学习路线，帮助大家从零基础逐步掌握Python爬虫技术。

python 爬虫学习资料.zip

11-12

Python爬虫学习资料是一个丰富的资源集合，旨在帮助初学者和有经验的开发者深入理解Python爬虫技术。Python作为一门简洁且强大的编程语言，是网络爬虫领域的首选工具，因其易于学习且拥有众多相关的库和框架。一、...

基于python爬虫学习项目源码.zip

09-23

基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习...

python爬虫学习++++。

11-30

本资源包提供了一套完整的Python爬虫学习资料，旨在帮助初学者深入理解和掌握爬虫技术，从基础到进阶，从理论到实践，全方位覆盖。 Python作为一门简洁、易读的编程语言，因其丰富的库支持，成为了爬虫开发的首选。...

python爬虫学习笔记-scrapy框架(1)

01-29

python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python ...

python爬虫学习笔记.zip

12-30

Python爬虫学习笔记在IT领域，Python爬虫是一种常用的技术，用于自动化地从互联网上抓取大量数据。Python语言因其简洁的语法和丰富的库支持，成为开发爬虫的首选工具。本篇将深入探讨Python爬虫的相关知识点，帮助...

50、【Ubuntu】【Gitlab】拉出内网 Web 服务：http.server 单/多线程分析（二）

HIT_Weston的博客

12-04

1330

本文分析了Python的http.server模块在单线程和多线程模式下的性能表现。通过测试发现，单线程模式下（Python<3.7）并发请求会被阻塞，后发请求需要等待前一个请求完成；而多线程模式下（Python≥3.7）可以同时处理多个请求。作者通过slow_server.py脚本模拟耗时操作，使用time curl命令测试响应时间，验证了线程模型的差异。文章还指出Python 3.7是一个重要分水岭，官方将默认命令行服务器升级为多线程以提升用户体验。技术细节参考了CPython源码，并提供了Git

推荐 | JoyAgent-JDGenie：开箱即用的端到端多智能体产品

lpfasd123的博客

12-05

330

如果你在寻找一款真正可落地的多智能体产品，用来“搜索-分析-生成报告”、“数据问答与诊断”、“代码解释与图表生成”，同时希望易部署、易扩展、易二次开发——JoyAgent-JDGenie 是非常值得试用与推荐的选择。只需填好少量配置，即可获得端到端的流式体验与交付能力。

大模型应用：大模型 MapReduce 全解析：核心概念、中文语料示例实现.12

minhuan的专栏

12-03

1303

本文介绍了MapReduce编程模型及其在大模型训练中的应用。MapReduce通过"分治-并行-聚合"思想处理大规模数据，传统Hadoop MapReduce侧重结构化数据计算，而大模型MapReduce则针对自然语言处理任务。文章详细对比了两者在架构、处理对象和核心算力等方面的差异，并提供了中文词频统计的Python实现示例，包括单机版和分布式版本。分布式实现利用多进程模拟集群计算，展示了数据分片、Map、Shuffle和Reduce的完整流程。

零基础学JAVA--Day41(IO文件流+IO流原理+InputStream+OutputStream)