爬虫学习笔记02-基本模块

原创

于 2023-06-06 11:00:00 发布 · 959 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #学习 #笔记 #算法 #python

本文介绍了Python中的requests模块用于发起HTTP请求，抓取网页数据，并展示了如何处理动态加载的内容。同时，文章讨论了正则表达式、BeautifulSoup和XPath在数据解析中的应用，以及selenium模块在模拟登录和动态数据获取中的作用。

爬虫学习笔记02-基本模块

Request

概念：Request是python中原生的一款基于网络请求的模块。
特点：功能强大，简单便捷，效率极高。
作用：模拟浏览器发请求。
使用方式：（requests 模块的编码流程）
-指定url
-发起请求
-获取响应数据
-持久化存储

环境安装：
pip install requests

实战代码

#爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":
    # step1:指定url
    url = 'https://www.sogou.com/'
    # step2:发起请求，get方法会返回一个响应对象
    response = requests.get(url=url)
    # step3:获取响应数据，text返回字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # step 4:持久化存储
    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束！！！')

#爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）
import requests
if __name__ == "__main__":
    headers={
   
   
       'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'
    }
    url='https://www.sogou.com/web'
    #处理url携带的参数：封装到字典中
    kw=input('enter a word:')
    param={
   
   
        'query':kw
    }
    response = requests.get(url=url,params=param,headers=headers);
    page_text = response.text
    filename = kw+'.html'
    with open(filename,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(filename,'保存成功！！！')

#爬取豆瓣电影分类排行榜
import requests
import json
if __name__ == "__main__":
    url='https://movie.douban.com/j/chart/top_list'
    param={
   
   
        'type':'24',
        'interval_id':'100:90',
        'action':'',
        'start':'1',#从库中的第几部电影去取
        'limit':'20',#一次取出的个数
    }
    headers={
   
   
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'
    }
    response=requests