这篇内容主要针对爬虫针对遇到发送请求页面
url = “https://www.crowdfunder.com/?q=filter&page=2"
data={
'entities_only': 'true',
'page': '1' #也可以改成2,3,4,5......
}
html_post = response.post(url, data=data)
title = re.findall('"card-title">(.*?)</div>', html_post.text, re.S)
for each in title:
print each
其实针对点击“加载更多”按钮时,很多时候网址并不发生变化,查看源码依然找不到加载后的内容。
这段代码不仅仅学习的是response.post方法,当然还有正则表达式(.*?)的含义匹配括号内的所有内容,re.S是指包括换行符在内的匹配,html_post.text,输出内容为文本文件格式。
本文介绍了一种通过爬虫技术抓取网页上动态加载内容的方法,特别是当点击“加载更多”按钮时如何获取新的数据。文章详细解释了使用Python的`response.post`方法发送POST请求,并利用正则表达式解析返回的数据。
63万+

被折叠的 条评论
为什么被折叠?



