这篇内容主要针对爬虫针对遇到发送请求页面
url = “https://www.crowdfunder.com/?q=filter&page=2"
data={
'entities_only': 'true',
'page': '1' #也可以改成2,3,4,5......
}
html_post = response.post(url, data=data)
title = re.findall('"card-title">(.*?)</div>', html_post.text, re.S)
for each in title:
print each
其实针对点击“加载更多”按钮时,很多时候网址并不发生变化,查看源码依然找不到加载后的内容。
这段代码不仅仅学习的是response.post方法,当然还有正则表达式(.*?)的含义匹配括号内的所有内容,re.S是指包括换行符在内的匹配,html_post.text,输出内容为文本文件格式。