
python爬虫
文章平均质量分 66
三名狂客
success without applause,diligence without reward!Becoming、Cognifying、Flowing、Screening、Accessing、Sharing、Filtering、Remixing、Interacting、Tracking、Questioning、Beginning.
展开
-
爬虫基本概念
一、爬虫的基本概念 二、聚焦网络爬虫架构 三、搜索引擎工作原理 四、网络爬虫的功能 五、网络爬虫小结原创 2017-07-14 16:38:59 · 942 阅读 · 0 评论 -
编写自动爬取网页的爬虫
一、item的编写# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass AutopjtItem(scr原创 2017-07-26 21:52:48 · 2892 阅读 · 0 评论 -
Scrapy框架利用CrawlSpider创建自动爬虫
一、适用条件 可以对有规律或者无规律的网站进行自动爬取 二、代码讲解 (1)创健scrapy项目E:myweb>scrapy startproject mycwpjtNew Scrapy project 'mycwpjt', using template directory 'd:\\python35\\lib\\site-packages\\s原创 2017-07-27 09:48:43 · 8949 阅读 · 3 评论 -
获取qq好友发的说说
一、Selenium简介Selenium是一个用于Web应用的功能自动化测试工具,Selenium 直接运行在浏览器中,就像真正的用户在操作一样。由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,获取需要的数据,甚至页面截图,或者是判断网站上某些动作是否发生。Selenium自己不带浏览器,需要配合第三方浏览器来使用。支持的浏览器有Chrome、转载 2017-08-05 17:45:43 · 1952 阅读 · 0 评论 -
Python 脚本帮你找出微信上删除了你的“好友“
一、普遍验证办法 群发消息应该算是微信上流传最广的找到删除好友的方法了。但群发消息不仅仅会把通讯录里面所有的好友骚扰一遍,而且你还得挨个删除好几百个聊天记录,回复大家的疑问和鄙视。作为一个互联网从业者,除了群发消息就不能有更高效、不打扰好友的方式么?二、写个脚本验证一下# coding=utf-8from __future__ import print_funct翻译 2017-08-20 19:51:11 · 7212 阅读 · 9 评论 -
python获取自己发的说说内容
一、模拟登陆import refrom selenium import webdriverfrom time import sleepfrom PIL import Image#定义QQ空间登录函数def QR_login(): def getGTK(cookie): """ 根据cookie得到GTK """ hashes = 5381翻译 2017-08-06 19:59:25 · 1879 阅读 · 0 评论 -
bs4爬虫:获取百度贴吧的内容
一、 环境 (1) windws 10 (2) python.27 (3) pycharm二、详细代码 (1)日志分析类 import loggingimport getpassimport sys#### 定义MyLog类class MyLog(object):#### 类MyLog的构造函数 def __init__(self原创 2017-09-05 11:06:46 · 880 阅读 · 0 评论 -
利用Scrapy爬取知乎用户详细信息并存至MongoDB
本节目标本节要实现的内容有:从一个大V用户开始,通过递归抓取粉丝列表和关注列表,实现知乎所有用户的详细信息的抓取。将抓取到的结果存储到MongoDB,并进行去重操作。思路分析我们都知道每个人都有关注列表和粉丝列表,尤其对于大V来说,粉丝和关注尤其更多。如果我们从一个大V开始,首先可以获取他的个人信息,然后我们获取他的粉丝列表和关注列表,然后遍历列表中的每一个转载 2017-09-13 11:29:43 · 1033 阅读 · 0 评论 -
bs4爬虫:获取双色球中奖信息
一、开发环境 (1)win10 (2)python 2.7 (3)pycharm二、保存数据到excel的类import xlwtclass SavaBallDate(object): def __init__(self, items): self.items = items self.run(self.item原创 2017-09-06 11:32:18 · 1378 阅读 · 0 评论 -
爬去知乎下某个问题下所有的图片
主要用户你看到某个感兴趣的问题,需要回答者的图片,比如制作和收集表情包,还有其他用途你懂的!一、运行环境 (1) win7 (2) python 2.7 (3) pycharm二、 主要代码#-*- coding:utf-8 -*-import reimport requestsimport osfrom urlparse impo翻译 2017-09-08 21:23:43 · 2689 阅读 · 0 评论 -
Selenium&&PhantomJS获取网站中的JS返回的数据
一、安装Selenium模块pip install selenium Selenium 是一套完整的Web应用程序测试系统,包含了测试的录制、编写及运行和测试的并行处理。二、安装PhantomJS(官网下载:http://phantomjs.org/) 下载后放在python安装目录,和python.exe在一个文件夹下。Selenium和Phanto原创 2017-09-10 15:22:40 · 4285 阅读 · 0 评论 -
python爬虫爬出新高度
一、运行环境 (1)win7 (2)python 2.7 (3)pycharm二、获取csdn发表的文章# coding:utf-8import urllib2, re, time, random, os, datetimeimport HTMLParserfrom bs4 import BeautifulSoupimport sysrelo转载 2017-09-10 20:37:21 · 1144 阅读 · 0 评论 -
python爬去知乎和简书内容
一、爬取知乎热门内容# -*- coding: utf-8-*-import urllib2import refrom BeautifulSoup import BeautifulSoupimport sysreload(sys)sys.setdefaultencoding('utf8')f = open('howtoTucao2.txt', 'w') # open the原创 2017-09-10 21:42:28 · 1297 阅读 · 0 评论 -
Scrapy爬虫爬取天气数据存储为txt和json等多种格式
一、创建Scrrapy项目scrapy startproject weather 二、 创建爬虫文件scrapy genspider wuhanSpider wuhan.tianqi.com 三、SCrapy项目各个文件 (1) items.pyimport scrapyclass WeatherItem(scrapy.Item): # de原创 2017-09-02 15:16:55 · 6102 阅读 · 0 评论 -
爬取网易云音乐下面的热门评论
一、运行环境 (1) win10 (2) python 2.7 (3) pycharm (4) 安装依赖 pip install PyCrypto 等 二、运行源程序# -*- coding: utf-8 -*-# @Time'''@Description:网易云音乐评论爬虫,可以完整爬取整个评论部分参考了@平胸小仙女的文章(地址:h转载 2017-09-11 16:20:17 · 1262 阅读 · 0 评论 -
猫眼电影TOP100爬取
1. 项目环境 (1) win7 (2) python 3.5 (3) pycharm2、项目流程分析3. 完整代码# -*- coding: utf-8 -*-import requestsimport reimport csvfrom requests.exc翻译 2017-10-10 15:46:12 · 610 阅读 · 0 评论 -
Python 爬虫:把廖雪峰的教程转换成 PDF 电子书
Python 爬虫:把廖雪峰的教程转换成 PDF 电子书系统要求python3.4以上版本, 不支持python2.x准备工具requests、beautifulsoup 是爬虫两大神器,reuqests 用于网络请求,beautifusoup 用于操作 html 数据。有了这两把梭子,干起活来利索。scrapy 这样的爬虫框架我们就不用了,这样的小程序派上它有点杀鸡用牛刀的意思。此外,既然是把 h翻译 2017-08-03 15:16:47 · 6525 阅读 · 3 评论 -
通过爬虫迁移优快云博客
最早是在优快云上写博客的,可是渐渐发现优快云写博客有诸多限制,而且优快云博客时不时会挂掉,因此后面用Hexo在github上搭了一个新博客,也就是现在这个。然而这样一来很多文章就留在优快云上,而在新博客上找不到了。因此前几天用Java写了一个爬虫,把优快云上的博客内容爬了下来,并解析成markdown格式存储在本地,这样就可以方便的迁移到新的博客了优快云博客迁移,把优快云转载 2017-08-10 15:31:56 · 900 阅读 · 2 评论 -
Python爬虫项目
WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 DouBanSpider [2]– 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到转载 2017-08-17 15:30:42 · 624 阅读 · 0 评论 -
网络爬虫实现的原理
一、爬行策略 深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、OPIC策略、Pagerank策略。 二、网页分析算法 (1)基于用户行为的网页分析算法: 根据用户对网页的访问行为及其评价 (2)基于网络拓扑的网页分析算法: 结构关系 网页粒度的分析算法 网页原创 2017-07-15 16:03:22 · 1182 阅读 · 0 评论 -
python爬取新浪新闻存储到excel
一、运行环境(1) BeautifulSoup的导入:pip install BeautifulSoup4(2) requests的导入:pip install requests(3) re的导入:pip install re(4) pandas的导入:pip install pandas二、完整代码 # 获取新闻的标题,内容,时间和评论数im翻译 2017-07-30 11:06:02 · 2478 阅读 · 2 评论 -
手写python爬虫
一、图片爬虫 (1)京东手机图片的抓取import reimport urllib.requestdef craw(url,page): html1=urllib.request.urlopen(url).read() html1=str(html1) pat1='' result1=re.compile(pat1).findall(html1)原创 2017-07-18 10:23:51 · 1296 阅读 · 0 评论 -
常见python爬虫框架
一、python爬虫框架 一些爬虫项目的半成品二、常见python爬虫框架 (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。 (2)Crawle原创 2017-07-21 16:26:34 · 28800 阅读 · 2 评论 -
搭建scapy流程
第一步:当然是安装python了,本人安装的是2.7.1版本第二步:按照官网的提示,我们先安装pywin3,依赖下面几个包: 1. 安装zope.interface 2. 安装pyopenssl 3.安装twisted第三步:安装lxml原创 2017-01-01 16:39:14 · 584 阅读 · 0 评论 -
pyhton爬虫Scrapy架构分析
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,更专业的描述就是,抓取特定网站网页的HTML数据。 Python 开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以 用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫翻译 2017-01-01 16:10:41 · 481 阅读 · 0 评论 -
正则表达式与Cookie
一、我们在进行字符串的处理时,希望按照自定义的规则进行处理,这些规则称为模式。可以用正则表达式描述这些规则,所以正则表达式也称为模式表达式。在python 中使用re 模块来实现正则表达式的功能。 二、正则表达式常见的原子 (1)普通字符:数字、大小写字母、下划线等 (2)非打印字符:格式控制符号,例如换行符 ----\n原创 2017-07-17 16:49:44 · 1805 阅读 · 0 评论 -
手写python爬虫第二弹
一、微信爬虫import reimport urllib.requestimport timeimport urllib.error#代理服务器地址 http://yum.iqianyue.com/proxy#模拟成浏览器headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KH原创 2017-07-18 15:58:51 · 1270 阅读 · 0 评论 -
爬虫的定向爬取
一、爬虫的定向爬取技术: 根据设置的主题,对要爬取的网址或者网页中的内容进行筛选。 二、爬虫的信息筛选方法 (1) 通过正则表达式筛选 (2)通过XPath表达式筛选 (Scapy经常使用) (3)通过xslt 筛选 三、定向爬虫实战爬取评论内容import urllib.re原创 2017-07-21 15:49:47 · 1942 阅读 · 4 评论 -
爬取今日头条上的图片
一、动态页面逆向分析爬取 (1)今日头条搜索界面如上: (2)页面分析获取Jason数据格式 http://www.toutiao.com/search_content/?offset=20&format=json&keyword=美女&autoload=true&count=20&cur_tab=1二、爬取完整代码块# coding=utf-8import jsonimport osimp翻译 2017-07-22 17:09:29 · 1615 阅读 · 0 评论 -
学习Scrapy框架
一、Scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加转载 2017-07-22 21:12:21 · 679 阅读 · 1 评论 -
Scrapy抓取天气数据和显示
一、item编写 import scrapyclass GzweatherItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # title = scrapy.Field() date = scrapy.Field() ma翻译 2017-08-07 16:35:09 · 2312 阅读 · 4 评论 -
利用Scrapy框架爬取博客信息并存到mysql数据库
一、所需要的库 (1)Scrapy (2)pymysql二、 创建数据库和表 Create database hexun; Use hexun;Create table myhexun(id int(10) auto_increment primary key not null,name varchar(30),url原创 2017-08-01 11:36:21 · 980 阅读 · 0 评论 -
获取斗鱼图片
一、总体思路从网页代码里获得你要图片。这里我们需要简单的分析一下该网页。当我们把鼠标移到地址上的时候就会出现该图片,这个就是我们要爬取的图片。这个图片是在 data-original 后面,我们就需要进行匹配,通过正则表达式很快就可以达到目的。网页代码片段1img data-original="https://rpic.do翻译 2017-07-23 22:50:47 · 1363 阅读 · 0 评论 -
爬虫的浏览器伪装
一、常见的反爬虫机制(1)通过分析用户请求的Headers信息 构造用户请求的Headers,即设置好"User-Agent""Referer"字段信息(2)检测用户行为:判断同一个ip在短时间内是否频繁访问对应的网站 使用代理服务器经常切换代理ip(3)通过动态页面增加爬虫爬取的难度用一些工具软件,如selenium+phantomJS原创 2017-07-20 09:03:59 · 639 阅读 · 0 评论 -
GitHub上Python的爬虫工具
网络相关通用urllib - 网络库(标准库)requests - 网络库grab - 网络库(基于pycurl)pycurl - 网络库 (与libcurl绑定)urllib3 - 具有线程安全连接池、文件psot支持、高可用的Python HTTP库httplib2 - 网络库RoboBrowser - 一个无需独立浏览器即可访问网页的简单、pyth转载 2018-01-28 21:16:10 · 3618 阅读 · 0 评论