python爬虫相关

本文介绍了Python爬虫的基础知识,包括Beautiful Soup4库的使用、正则表达式的概念和常见模式,以及如何在Scrapy框架下进行网页抓取和数据存储。还探讨了Python的格式化输出,如数字、百分比、对齐方式的设置。同时,讲解了yield关键字在生成器中的作用,以及Scrapy如何将数据保存到JSON文件。最后,提到了self.parse与self.parse()的区别,以及如何通过获取下一个URL地址来遍历多个网页。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基础知识点
python格式化
         python格式化
                 数字格式化
                 python
                 print("{:.2f}".format(3.1415926))#设置两位小数
                 print("{:.2%}".format(0.25))#百分比
                 print("{:^10}".format("aaaaa"))#居中
                 print("{:<10}".format("aaaaa"))#左对齐
                 print("{:>10}".format("aaaaa"))#右对齐

                  结果
        python
        3.14
        25.00%
        aaaaa
        aaaaa
        aaaaa

中文输出排版

print("{0:{1}^10}".format("感悟",chr(12288)))#居中
print("{0:{1}^10}".format("你是不是",chr(12288)))#居中
print("{0:{1}^10}".format("哈哈哈",chr(12288)))#居中
print("{0:{1}^10}".format("你是环境吗",chr(12288)))#居中
print("{0:{1}^10}".format("很额额哈鸡儿哈酒",chr(12288)))#居中

python爬虫知识点
Beautiful Soup4库
安装BeautifulSoup4库
- 导入:from bs4 import BeautifulSoup
正则表达式
正则表达式是用来简洁表达一组字符串的表达式。
主要用在字符串匹配中
正则表达式常用字符串
. 表示任何单个字符
[] 字符集,对单个字符给出取值范围,例:[abc]表示a,b,c中的一个,[a-z]表示a到z中的一个字符
[^]非字符集,对单个字符给出排除范围,例[^abc]表示非a或b或c的单个字符
前一个字符0次或无线次扩展,例abc*表示ab、abc、abcc、、、
前一个字符1次或无限次扩展,例abc+表示abc、abcc、、、、
? 前一个字符0次或者1次扩展,例abc?表示ab、abc
| 左右表达式任意一个,例abc|def表示abc、def
{m} 扩展前一个字符m次,例ab{2}c表示abbc
{m,n}扩展前一个字符m至n次(含n),例ab{1,2}c表示abc,abbc
^ 匹配字符串开头,例^abc表示abc且在一个字符串的开头
$ 匹配字符串结尾
()分组标记,内部只能使用|操作符,例(abc)表示abc,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值