一、xpinyin模块的使用
1.为什么使用xpinyin模块
- 当我们让爬虫程序去访问大量的不同的网站时,有时会遇到搜索的关键词的拼音就在网址里,这就需要我们自动地去识别程序
- 举个例子就是某图网
2.xpinyin 了解
import requests # 导入请求包
from retrying import retry
from xpinyin import Pinyin
# 实例化一个xpinyin的对象
p = Pinyin()
# 得到汉字的拼音,一般来说使用-隔开
print(p.get_pinyin("长沙"))
# 得到汉字的多个拼音,也就是多音字
print(p.get_pinyins("厦门"))
# 得到汉字的拼音,并且没有分割
print(p.get_pinyins("厦门",""))
# 得到一个汉字的首字母
print(p.get_initial("常"))
# 得到多个汉子的首字母,并且不分割
print(p.get_initials("沙门", ""))
3.xpinyin的使用
在某图网之中,有些汉字的拼音并不能直接的通过拼音来获取网址,而是通过https://699pic.com/search/getKwInfo?kw=三个 来得到如下的内容
{"status":"ok","message":"\u64cd\u4f5c\u6210\u529f","data":{"kwid":"290225","pinyin":"sange"}}
- 注意:response.text获得的类型是字符串的类型,如果需要将上面的字符串转化为字典的话,则需要转化为json这一步
import requests # 导入请求包
from retrying import retry
from xpinyin import Pinyin
# 实例化一个xpinyin的对象
p = Pinyin()
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"
}
keyword = input("请输入你想搜索的图片")
response_url = f"https://699pic.com/search/getKwInfo?kw={keyword}"
response1=requests.get(url=response_url,headers=headers)
print(type

本文介绍了Python爬虫中的两个实用库:xpinyin和requests_html。xpinyin模块用于处理汉字拼音,特别是在处理含有关键词拼音的网址时发挥作用。requests_html则因其自带UA和自动utf-8编码而具有优势。此外,文章还详细讲解了json的使用,包括数据格式转换、获取网页数据以及jsonpath的操作。最后,文章提到了re正则表达式的应用,如re.findall和re.compile。
最低0.47元/天 解锁文章
669

被折叠的 条评论
为什么被折叠?



