python笔记

本文介绍了Python中正则表达式、贪婪与非贪婪匹配的概念,以及如何使用urllib获取网页源码。通过BeautifulSoup库展示了如何查找和筛选HTML元素,包括find和find_all方法,以及CSS选择器的使用。同时,还分享了字符串操作的优化技巧,并提供了下载文件时显示进度的方法。此外,还探讨了汉字字符的正则匹配。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1正则表达式(regular expression)re

re.sub(“a”,“b”,str):把str里的a换成b

2贪婪与非贪婪

.*:贪婪
.*?:非贪婪

3.获得网页源码

urllib.request.urlretrieve

4

html = """
         <html><head><title>The Dormouse's story</title></head>
         <body>
         <p class="title" name="dromouse"><b>The Dormouse's story</b></p >
         <p class="story">Once upon a time there were three little sisters; and their names were
         <a href=" " class="sister" id="link1"><!-- Elsie --></a >,
         <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a > and
         <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a >;
         and they lived at the bottom of a well.</p >
         <p class="story">...</p >
         """

# 转换类型
soup = BeautifulSoup(html, "lxml")
# find -->只找一个复合条件
p = soup.find("p")
p = soup.find(attrs={"class": "title"})
p = soup.find(text="...")
p = soup.find(re.compile("^b"))

# findall-->列表  全局搜索
p = soup.find_all("p")
# print len(p)

# select-->列表 全局搜索  CSS 选择器
# ID
# 标签
# 类
# 层级选择器
# 并集选择器
# 属性选择器

a = soup.select("#link2")
a = soup.select("a")
a = soup.select(".sister")
a = soup.select("p #link2")
a = soup.select("title,a")
p = soup.select('p[class="story"]')[1]

# 获取标签包裹的内容
p_content = p.get_text()
# 获取属性:默认是列表
p_class = p.get("class")
print(p_class[0])

字符串操作

##不推荐
colors = ['red', 'blue', 'green', 'yellow']
result = ''
for s in colors:
	result += s # 每次赋值都丢弃以前的字符串对象, 生成一个新对象 
##推荐
colors = ['red', 'blue', 'green', 'yellow']
result = ''.join(colors) # 没有额外的内存分配

在这里插入图片描述

下载百分号,堆糖项目里学的

import urllib
def callbackfunc(blocknum, blocksize, totalsize):
‘’‘回调函数
@blocknum: 已经下载的数据块
@blocksize: 数据块的大小
@totalsize: 远程文件的大小
‘’’
percent = 100.0 * blocknum * blocksize / totalsize
if percent > 100:
percent = 100
print “%.2f%%”% percent

url = ‘http://www.sina.com.cn’
local = ‘d:\sina.html’
urllib.urlretrieve(url, local, callbackfunc)

chinese = re.findall(’[\u4e00-\u9fa5]’,i) #汉字的范围为"\u4e00-\u9fa5"

### Python 笔记 Markdown 格式 学习资料 #### 使用 Markdown 编辑 Python 笔记的优势 Markdown 的语法非常简洁,适合编写技术文档和技术笔记。对于非技术人员来说也容易上手[^4]。通过简单的标记符号可以快速创建结构化的笔记内容。 #### 创建 Python 笔记的具体方法 为了更好地管理和展示 Python 笔记,建议按照如下方式组织: 1. **标题和子标题** 利用 `#` 来定义不同级别的标题,这有助于构建清晰的文章框架。 2. **代码片段高亮显示** 当记录 Python 代码时,可以通过三对反引号包裹代码,并指定编程语言来启用语法高亮[^1]: ```python def hello_world(): print("Hello, world!") ``` 3. **列表项** 可以使用星号(*) 或者减号(-) 来创建无序列表;使用数字加句点(1., 2.) 形式的编号来创建有序列表。 4. **超链接与图片嵌入** 插入外部资源如教程页面或图表图像,增强笔记的信息量。格式为 `[描述](URL)` 和 `![替代文字](图片地址)`。 5. **表格制作** 表格可以帮助整理数据对比等内容,利用管道符(|)分隔列,短横线(-)划分行。 6. **特殊字符处理** 对于一些特殊的 HTML 实体字符可以直接输入,比如版权符号©、注册商标&reg;等,甚至表情符号也可以直接粘贴进来[^5]。 7. **保存与分享** 完成后的 Markdown 文件(.md),既可以在本地查看,也能上传至 GitHub Pages 等平台发布为静态网站[^2]。 8. **转换为其他格式** 如果希望进一步加工这些笔记,则可借助第三方库如 Python-Markdown 将其转码为更通用的 HTML 文档[^3]。 ```html <script> $.get((searchMap.md || 'readme.md'), function(text) { document.write(markdownit().render(text)); }); </script> ``` 上述脚本展示了如何动态加载并渲染 Markdown 文件中的内容,在浏览器端即时预览效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值