python爬虫学习笔记(一)

本文是作者学习Python爬虫的初步笔记,记录了在学习过程中遇到的问题和解决方案,包括使用request模块进行网络请求时遇到的NameError问题,以及爬虫的基本流程:构造请求头和自定义请求对象,发送请求并读取响应,以及数据清洗的步骤。重点强调了随机选择、创建请求和数据清洗的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目前正在学习python爬虫,在网上找了一些很基础的课程,在这里做点笔记分享。

需要的模块有:

from urllib import request
import re #正则表达试
import random

from urllib import request老师说这里可以写成:import urllib.request,不过我在使用后者写法的时候调用:request.Request()会显示NameError: name ‘request’ is not defined,我研究了半天是一脸的懵,后来没法只能换成第一种写法才没有报错!我怀疑是我的电脑配置问题。

爬虫机制分为两个部分:请求和响应
在发起请求前需要做两件事情:

ur1=r"http://www.baidu.com/"#要爬的的网址
#反爬虫机制:判断用户是否是浏览器访问。可以通过伪装浏览器进行访问
#伪装浏览器User-Agent,然后随机选择User-Agent访问,避免触碰反爬虫机制手段之一
agent1="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
agent2="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.7 (KHTML, like Gecko) Chrome/20.0.1099.0 Safari/536.7 QQBrowser/6.14.15493.201"
agent3="Opera/9.80 (Windows NT 6.1) Presto/2.12.388 Version/12.15"
agent4="Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) AppleWebKit/537.36 (KHTML
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值