
Python爬虫
Python全栈分支学习,主要关于爬虫相关基础和应用
朱晓霞AI
尼采曰:每一个不曾起舞的日子,都是对生命的辜负!
展开
-
python爬虫学习笔记
关注的专栏:http://blog.youkuaiyun.com/column/details/15321.htmlinclude他的个人博客:http://cuijiahua.com/一、网络爬虫简介网络爬虫,也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。比如:https://www.baidu.com/,它就是...原创 2017-11-27 22:18:14 · 2031 阅读 · 0 评论 -
Python网络爬虫《一》
1、内容:2、Python IDE工具:科学计算和数据分析:Canopy、Anaconda3、Python网络爬虫与信息提取:Request库:(1)安装:pip install request(2)验证:python IDLE中>>> import requests>>> r = requests.get("http://www.baidu.com")原创 2018-01-13 15:41:59 · 606 阅读 · 2 评论 -
Python网络爬虫《二》
1、网络爬虫的尺寸:2、网络爬虫的限制:(1)来源审查:判断User-agent进行限制检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问;(2)发布公告:Robots协议3、Robots协议:网络爬虫排除标准作用:网络告知网络爬虫那些页面可以抓取,那些不行;显示:在网站根目录下robots.txt文件;网络爬虫:自原创 2018-01-13 16:02:43 · 430 阅读 · 0 评论 -
Python网络爬虫《三》
案例分析:案例1:京东商品页面爬取#/usr/bin/env.pythonimport requestsdef getHTMLText(url): try: r = requests.get(url,timeout=30) print r.status_code r.raise_for_status() r.e原创 2018-01-13 17:12:00 · 627 阅读 · 0 评论 -
Python网络爬虫《四》
1、Beautiful Soup指令安装(二选一):pip install beautifulsoup4easy_install beautifulsoup4#/usr/bin/env.python#_*_utf-8_*_from bs4 import BeautifulSoupimport requestsif __name__=="__main__"原创 2018-01-13 18:25:47 · 399 阅读 · 0 评论 -
Python网络爬虫《五》
案例:中国大学排名定向爬虫输入:URL输出:(排名、大学名称...)技术路线:requests-bs4定向爬虫:仅仅对输入URL进行爬取,不扩展爬取;#/usr/bin/env.python# -*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport原创 2018-01-14 14:28:31 · 512 阅读 · 0 评论 -
Python网络爬虫《六》
正则表达式:字符和操作符构成正则表达式是一个特殊的字符序列,检查一个字符串是否与某种模式匹配。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。操作符:模式描述^原创 2018-01-14 21:07:02 · 806 阅读 · 0 评论 -
Python网络爬虫《八》
案例二:目标:获取上交所和深交所所有股票的名称和交易信息;输出:保存到文件中;技术路线:requests-bs4-re候选网站分析:候选:新浪股票&百度股票原则:股票信息静态存在于HTML页面中,非JS代码生成,没有Robots协议限制;选取方法:浏览器F12,源代码查看等;代码练习:#/usr/bin/env.python# -*- co原创 2018-01-15 10:24:37 · 472 阅读 · 0 评论 -
Python网络爬虫《七》
案例一:淘宝商品信息定向爬虫实例编写功能描述:1、目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格;2、理解:淘宝的搜索接口;翻页的处理;3、技术路线:request-re4、可行性:User-agent:*Dissallow观察:https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&imgfile=&commend=a原创 2018-01-15 10:24:40 · 1206 阅读 · 0 评论 -
Python网络爬虫《九》
Scrapy爬虫框架安装 : pip install scrapy测试成功 : scrapy -hScrapy爬虫框架“5+2”结构:Scrapy主要组件:引擎(Engine) 用来控制所有模块之间的数据流, 触发事务(框架核心)下载器(Downloader) 用于下载网页内容,原创 2018-01-15 11:01:03 · 1120 阅读 · 0 评论 -
Python网络爬虫《十》
案例:股票数据Scrapy爬虫实例完整配置并实现Scrapy爬虫的过程:建立工程和Spider模板 编写Spider 编写Pipeline 配置优化具体实现:1、创建工程 1 scrapy startproject BaiduStocks 2、创建爬虫程序 1 2 cd BaiduStocks ...原创 2018-01-15 15:35:17 · 547 阅读 · 0 评论