工作总是充满挑战的,作为一个敲php代码的码农,应因需求学了一下python,由于网上python2.7的教程比较多,本人果断安装的2.7版本,不过3.5版本已经有了。。。请勿嫌弃。鄙人才疏学浅,仅将自己采坑爬坑的点总结了一下,得出下面的一段小教程,经与同事分享,还是可以的。第一次写博客,哈哈哈,share 起来!
一、python安装及相关使用 (才疏学浅,但喷血整理)
1、版本:python2.7.14
下载地址:https://www.python.org/
下载后直接安装,默认安装在C盘
安装后配置环境变量,path:我的电脑->属性->高级系统设置->环境变量->xx的用户变量->path->编辑,增加一条:C:\Python27。配置好后保存。
打开cmd,输入python.exe,回车后出现版本信息等,即表示配置成功。
2、爬取网站
(1)了解网站的robot.txt(robot协议:提示哪些路径禁止爬取,不过非高频爬取是可以的)如:http://www.utc-ic.com/robots.txt
(2)爬取步骤:
(i)安装第三方库:requests
requests文档:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
requests用于获取指定url的html内容
安装方法:1、打开cmd
2、使用cd 打开至python内的Scripts文件,回车,输入pip install requests,等待提示信息
3、测试是否安装成功,打开IDLE,输入import requests,回车,不报错即表示安装成功
使用方法:1、新建一个*.py文件
2、设置文本编码:#coding:utf8
3、引入requests:import requests
4、简单的获取html
发送请求:常用的有get、post、put、delete、head、option等
若网页不需要用户登录或cookie等,get请求便可满足
r = requests.get(url,params) 注:r为response对象,存储了服务器的响应内容
url如:http://www.utc-ic.com/
params传其他参数:如将爬虫伪装成某个浏览器(如:Mozilla/5.0、AppleWebKit/537.36、Chrome/62.0.3192.0 、Safari/537.36等)
示例:
head = {'User-Agent': 'Mozilla/5.