爬虫学习笔记02-基本模块

本文介绍了Python中的requests模块用于发起HTTP请求,抓取网页数据,并展示了如何处理动态加载的内容。同时,文章讨论了正则表达式、BeautifulSoup和XPath在数据解析中的应用,以及selenium模块在模拟登录和动态数据获取中的作用。

爬虫学习笔记02-基本模块

Request

概念:Request是python中原生的一款基于网络请求的模块。
特点:功能强大,简单便捷,效率极高。
作用:模拟浏览器发请求。
使用方式:(requests 模块的编码流程)
-指定url
-发起请求
-获取响应数据
-持久化存储

环境安装:
pip install requests

实战代码
#爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":
    # step1:指定url
    url = 'https://www.sogou.com/'
    # step2:发起请求,get方法会返回一个响应对象
    response = requests.get(url=url)
    # step3:获取响应数据,text返回字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # step 4:持久化存储
    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束!!!')
#爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
import requests
if __name__ == "__main__":
    headers={
   
   
       'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'
    }
    url='https://www.sogou.com/web'
    #处理url携带的参数:封装到字典中
    kw=input('enter a word:')
    param={
   
   
        'query':kw
    }
    response = requests.get(url=url,params=param,headers=headers);
    page_text = response.text
    filename = kw+'.html'
    with open(filename,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(filename,'保存成功!!!')
#爬取豆瓣电影分类排行榜
import requests
import json
if __name__ == "__main__":
    url='https://movie.douban.com/j/chart/top_list'
    param={
   
   
        'type':'24',
        'interval_id':'100:90',
        'action':'',
        'start':'1',#从库中的第几部电影去取
        'limit':'20',#一次取出的个数
    }
    headers={
   
   
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'
    }
    response=requests
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

RWLinno

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值