基于python2.7的爬虫入门教程

本文是作者作为PHP程序员初次接触Python2.7爬虫的学习笔记,包括Python的安装、环境配置,以及使用requests和BeautifulSoup库进行网页抓取的步骤,还有处理动态页面的方法,并给出了相关资源链接和安装教程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

工作总是充满挑战的,作为一个敲php代码的码农,应因需求学了一下python,由于网上python2.7的教程比较多,本人果断安装的2.7版本,不过3.5版本已经有了。。。请勿嫌弃。鄙人才疏学浅,仅将自己采坑爬坑的点总结了一下,得出下面的一段小教程,经与同事分享,还是可以的。第一次写博客,哈哈哈,share 起来!


一、python安装及相关使用 (才疏学浅,但喷血整理)
1、版本:python2.7.14
      下载地址:https://www.python.org/
      下载后直接安装,默认安装在C盘
       安装后配置环境变量,path:我的电脑->属性->高级系统设置->环境变量->xx的用户变量->path->编辑,增加一条:C:\Python27。配置好后保存。
       打开cmd,输入python.exe,回车后出现版本信息等,即表示配置成功。
2、爬取网站
      (1)了解网站的robot.txt(robot协议:提示哪些路径禁止爬取,不过非高频爬取是可以的)如:http://www.utc-ic.com/robots.txt
      (2)爬取步骤:
(i)安装第三方库:requests
        requests文档:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
        requests用于获取指定url的html内容
        安装方法:1、打开cmd
         2、使用cd 打开至python内的Scripts文件,回车,输入pip install requests,等待提示信息
         3、测试是否安装成功,打开IDLE,输入import requests,回车,不报错即表示安装成功
        使用方法:1、新建一个*.py文件
         2、设置文本编码:#coding:utf8
         3、引入requests:import requests
         4、简单的获取html
              发送请求:常用的有get、post、put、delete、head、option等
若网页不需要用户登录或cookie等,get请求便可满足
r = requests.get(url,params)     注:r为response对象,存储了服务器的响应内容
url如:http://www.utc-ic.com/
params传其他参数:如将爬虫伪装成某个浏览器(如:Mozilla/5.0、AppleWebKit/537.36、Chrome/62.0.3192.0 、Safari/537.36等)
示例:
          head = {'User-Agent':  'Mozilla/5.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值