#引入我们的requests库 import requests #引入我们的pyquery库 from pyquery import PyQuery as pq #引入我们的头 headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.42" } #引入我们的链接 url = "https://www.baidu.com/" #使用我们requests当中的get方法 r=requests.get(url,headers=headers) #这一行是用来查看我们的状态码的,200是可以正常运行的 r.raise_for_status() #让我们全文的文本编码等于我们头部的 r.encoding=r.apparent_encoding #将我们的r.text赋值给demo demo = r.text #进行初始化一下 doc = pq(demo) i = 1#计数用 #使用我们的遍历来获取属性值为.title-content-title这个的标签 for inf in doc.find('.title-content-title').items(): d = pq(inf) # print(d("a")) p = d("span") # span标签里面的内容 v=p.text() # span标签的父亲所有内容 w=p.parent() # 网站链接 q=w.attr.href #这个i:/作业.txt是我电脑上的地址,如果没有分盘i盘的话是需要进行更改一下的,要不会发生报错 with open('i:/作业.txt', 'a', encoding=r.apparent_encoding) as f: f.write(str(i) + '.') f.write(v) # 写入我们热点的内容 f.write(q) #写入我们热点的链接 f.write('\n') i += 1
使用requests库和pyquery库去获取百度热搜并将内容【索引,文本,链接】导入到文件
最新推荐文章于 2025-05-14 15:07:12 发布