9highlights for day 12 of Python

最新推荐文章于 2025-07-27 10:30:00 发布

原创最新推荐文章于 2025-07-27 10:30:00 发布 · 194 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#xpath

代码同时被 3 个专栏收录

20 篇文章

订阅专栏

蟒蛇

19 篇文章

订阅专栏

心得

18 篇文章

订阅专栏

本文探讨了同步与异步的区别、URL编码处理、XPath基本用法、return与yield的不同，以及如何采集未知页数的网站。同时，介绍了常见的数据格式和解析手段，以及网址拼接的方法。

1.同步和异步的区别
同步：顺序执行，如果上一步没执行完则一直等待(阻塞)
异步：无序执行，不需要等待上一步就可以执行下一步

2.url中出现中文需要怎么办

url中不能出现汉字，一般都会经过编码

    # 浏览器为了提升用户体验，会自动解析
    # requests库会自动对汉字做编码

3.xpath的基本用法

匹配文本

获取属性

一个属性多个值需要contains匹配

4.return和yield的区别
return 是函数返回值，当执行到return，后续的逻辑代码不在执行

循环中要返回数据，推荐用yield

它能返回数据，跟return类似

它不会中断循环

返回的是个生成器(generator)，节省内存

5.未知总页数如何采集所有页的基本逻辑
perpage_url = url + f"index_{page}.html"
# 解析每页的图片
root = etree.HTML(cls.get(perpage_url))
imgs = root.xpath("//img/@src")
for img_src in imgs:
img_src = “http:” + img_src if not img_src.startswith(“http”) else img_src
img_name = img_src.split("/")[-1]
big_img_src = img_src.replace("/t/", “/pre/”)
big_img_name = “big_” + img_name
yield img_name, img_src, big_img_name, big_img_src

        if not imgs:
            print("到达最后一页")
            break
        page += 1

6.爬虫解析的数据格式包包括哪些
html\json\string

7.解析数据的手端有哪些?

html: xpath 正则, css , json:, string*)

8.网址拼接的方式有哪些?
# 拼接网址的两种方式
# 1.
# href = “https://www.ivsky.com” + href
# 2.
href = urljoin(url, href)

9.TODO是什么东西
继上次没有写完的地方接着写

9highlights for day 12 of Python

url中不能出现汉字，一般都会经过编码

匹配文本

获取属性

一个属性多个值 需要contains匹配

循环中要返回数据，推荐用yield

它能返回数据，跟return类似

它不会中断循环

返回的是个生成器(generator)，节省内存

html: xpath 正则, css , json:, string*)

一个属性多个值需要contains匹配