#coding=gbk
#为了解决编码问题加入的coding=gbk
from chaojiying import Chaojiying_Client
import requests
from lxml import etree
# 模拟登陆古诗文网
# 缕思为路:先获得整张登录页面的html,再用xpath解析到验证的图片存到本地,把图片路径和验证码类型传到超级鹰的封装代码,得到验证码,
# 参数列表里的code为变量,用post请求进行登录,最后把返回的html存储到本地,再用浏览器打开看看是否是你自己的登录页面,在此基础上用get方法获得更详细的页面
if __name__=='__main__':
url='https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
header={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'
}
sessions=requests.Session()
login_page = sessions.get(url=url, headers=header).text
login_html=etree.HTML(login_page)
用python实现古诗文网个人主页爬取
最新推荐文章于 2024-11-23 18:28:40 发布