
Python爬虫
笨鸟能先飞,那菜鸟呢?
AI阿聪
日拱一卒无有尽,功不唐捐终入海。一点一滴,慢慢来。
展开
-
Python网络爬虫(五)——获取代理IP
设置代理IP的原因如果我们使用Python爬虫爬取一个网站时,并且需要频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样便不会出现因为频繁访问而导致禁止访问的现象。方案一:获取代理IP列表这里以西刺代理IP为例(网站链接),免费和方便爬取以获取IP是它的优...原创 2019-05-01 10:56:03 · 3253 阅读 · 2 评论 -
Python网络爬虫(四)——Beautiful Soup库
1. 安装在命令行窗口输入以下代码进行下载pip install beautifulsoup42. 练习>>> import requests>>> r = requests.get("http://python123.io/ws/demo.html")>>> r.text'<html><...原创 2019-04-07 10:54:25 · 344 阅读 · 0 评论 -
Python网络爬虫(三)——Requests案例
1. 案例1:京东商品页面的爬取import requestsurl = "https://item.jd.com/2967929.html"try:r = requests.get(url)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[:1000]) #内容前...原创 2019-04-05 10:32:19 · 1062 阅读 · 0 评论 -
Python网络爬虫(二)——Robots协议
1. Robots协议的作用与形式Robots全称为Robot Exclusion Standard,即网络爬虫排除标准作用:网站告知网络爬虫哪些页面可以抓取,哪些不行形式:在网站根目录下的robots.txt文件(如果无robots.txt文件,可以随便爬取该网站的任何内容)2. Robots协议基本语法# 注释,*代表所有,/代表根目录User-agent...原创 2019-04-05 09:03:14 · 763 阅读 · 0 评论 -
Python网络爬虫(一)——Request入门
1. 安装requests库在电脑主界面Windows+R,然后输入“cmd”进入命令行窗口输入 pip install requests即可下载。2. 测试启动idle测试#以百度为例>>> import requests>>> r = requests.get("http://www.baidu.com")#状态...原创 2019-04-04 18:30:47 · 9760 阅读 · 0 评论