爬虫学习笔记02-基本模块
Request
概念:Request是python中原生的一款基于网络请求的模块。
特点:功能强大,简单便捷,效率极高。
作用:模拟浏览器发请求。
使用方式:(requests 模块的编码流程)
-指定url
-发起请求
-获取响应数据
-持久化存储
环境安装:
pip install requests
实战代码
#爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":
# step1:指定url
url = 'https://www.sogou.com/'
# step2:发起请求,get方法会返回一个响应对象
response = requests.get(url=url)
# step3:获取响应数据,text返回字符串形式的响应数据
page_text = response.text
print(page_text)
# step 4:持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束!!!')
#爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
import requests
if __name__ == "__main__":
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'
}
url='https://www.sogou.com/web'
#处理url携带的参数:封装到字典中
kw=input('enter a word:')
param={
'query':kw
}
response = requests.get(url=url,params=param,headers=headers);
page_text = response.text
filename = kw+'.html'
with open(filename,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(filename,'保存成功!!!')
#爬取豆瓣电影分类排行榜
import requests
import json
if __name__ == "__main__":
url='https://movie.douban.com/j/chart/top_list'
param={
'type':'24',
'interval_id':'100:90',
'action':'',
'start':'1',#从库中的第几部电影去取
'limit':'20',#一次取出的个数
}
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'
}
response=requests

本文介绍了Python中的requests模块用于发起HTTP请求,抓取网页数据,并展示了如何处理动态加载的内容。同时,文章讨论了正则表达式、BeautifulSoup和XPath在数据解析中的应用,以及selenium模块在模拟登录和动态数据获取中的作用。
最低0.47元/天 解锁文章
1980

被折叠的 条评论
为什么被折叠?



