爬虫的进阶——xpinyin,requests_html

最新推荐文章于 2024-09-24 14:36:18 发布

原创

最新推荐文章于 2024-09-24 14:36:18 发布 · 635 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了Python爬虫中的两个实用库：xpinyin和requests_html。xpinyin模块用于处理汉字拼音，特别是在处理含有关键词拼音的网址时发挥作用。requests_html则因其自带UA和自动utf-8编码而具有优势。此外，文章还详细讲解了json的使用，包括数据格式转换、获取网页数据以及jsonpath的操作。最后，文章提到了re正则表达式的应用，如re.findall和re.compile。

一、xpinyin模块的使用

1.为什么使用xpinyin模块

当我们让爬虫程序去访问大量的不同的网站时，有时会遇到搜索的关键词的拼音就在网址里，这就需要我们自动地去识别程序
举个例子就是某图网

2.xpinyin 了解

import requests  # 导入请求包
from retrying import retry
from xpinyin import Pinyin
# 实例化一个xpinyin的对象
p = Pinyin()

# 得到汉字的拼音，一般来说使用-隔开
print(p.get_pinyin("长沙"))
# 得到汉字的多个拼音，也就是多音字
print(p.get_pinyins("厦门"))

# 得到汉字的拼音，并且没有分割
print(p.get_pinyins("厦门",""))
# 得到一个汉字的首字母
print(p.get_initial("常"))
# 得到多个汉子的首字母，并且不分割
print(p.get_initials("沙门", ""))

3.xpinyin的使用

在某图网之中，有些汉字的拼音并不能直接的通过拼音来获取网址，而是通过https://699pic.com/search/getKwInfo?kw=三个来得到如下的内容

{"status":"ok","message":"\u64cd\u4f5c\u6210\u529f","data":{"kwid":"290225","pinyin":"sange"}}

注意：response.text获得的类型是字符串的类型，如果需要将上面的字符串转化为字典的话，则需要转化为json这一步

import requests  # 导入请求包
from retrying import retry
from xpinyin import Pinyin
# 实例化一个xpinyin的对象
p = Pinyin()
headers = {
   
   
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"
}
keyword = input("请输入你想搜索的图片")
response_url = f"https://699pic.com/search/getKwInfo?kw={keyword}"
response1=requests.get(url=response_url,headers=headers)
print(type