
爬虫实战
文章平均质量分 64
各种爬虫实践,效果让你又惊又喜
MTbaby
假使我又见你,隔了悠长的岁月,我如何致意,以沉默,以眼泪?
展开
-
用代码生成炫酷的词云图—《你好,李焕英》
最近比较火的电影《你好,李焕英》莫名戳中了大家的泪点,应用评论中的一句“妈妈永远比想象中的要爱我们”虽然我没哭,但看大家都哭了,说明电影不在于多有深意,而是能引起大家共鸣的电影,才是好电影。(完全瞎编的)下面我们就来看一下《你好,李焕英》在豆瓣影评中都有哪些优质的评论以及出现最多的词是哪些。1.确定数据所在的urlhttps://movie.douban.com/subject/34841067/comments?percent_type=h&limit=20&status=P&a原创 2021-03-16 16:57:42 · 1264 阅读 · 0 评论 -
火车票查询系统(一)——利用python实现监控12306余票查询
最近春运高峰,本人从12月开始买过年回家的火车票,然鹅~现实总是那么残酷,放票时间记不住,要么就是不能实时盯着刷票,外面的软件也不知道靠不靠谱,反正是没买到票,所以一怒之下,自己做一个12306余票查询系统,可以实现以下一些功能:1. 设置目标位置进行查询余票2. 通过设定条件监控到余票后进行12306账号登录3. 12306登录及图片识别(自动登录功能)4. 自动下单功能5. 邮件通知...原创 2020-01-14 17:45:00 · 5458 阅读 · 1 评论 -
节假日程序员如何表白心仪妹子?
时光荏苒,转眼2019就要逝去……哎呀,算了好文艺,不太适合我切入正题,话说2019年底到2020年春节,有圣诞,元旦,春节,情人节 这四个重要的节日,各位程序员小哥哥们都是如何表白心仪的妹子呢?送花?送礼物?送吃的?陪逛街陪吃饭配电影陪……NO NO NO……这些别的臭男人也能想到的。我们作为 “年二十有三,头秃,始从文,连考而不中。遂习武,练武场上发一矢,中鼓吏,逐之出。改学IT,自撰一函...原创 2020-01-06 18:37:30 · 732 阅读 · 2 评论 -
python爬虫实践——零基础快速入门(二)爬取豆瓣电影
爬虫又称为网页蜘蛛,是一种程序或脚本。但重点在于,它能够按照一定的规则,自动获取网页信息。爬虫的基本原理——通用框架1.挑选种子URL; 2.讲这些URL放入带抓取的URL列队; 3.取出带抓取的URL,下载并存储进已下载网页库中。此外,讲这些URL放入带抓取URL列队,进入下一循环。 4.分析已抓取列队中的URL,并且将URL放入带抓取URL列队,从而进去下一循环。...原创 2018-01-26 16:27:59 · 10034 阅读 · 37 评论 -
python爬取动态网页
还记得在之前一篇python开发电影查询系统(一)—python实现后台数据中,对电影的下载地址无法进行爬取,原因是下载地址在网页源码中无法查看,而是被js隐藏起来了。所以在爬取时,我在文章中写道 现在,我们找到了攻破他反爬的方法。下面我来详细介绍一下。robobrowser库所做的事情就是模拟你真实的浏览器,并可加载动态js页面,从而爬取数据。是不是很牛逼啊。一、robobrows...原创 2018-05-31 13:55:24 · 3138 阅读 · 0 评论 -
BD电影搜索-自定义过滤器
实现概要说明找电影时,发现网站自带的搜索功能可选项不多,于是乎写了个脚本,实现按网站标签结果二次搜索,获取电影信息。需要注意的是,使用爬虫脚本需要先用网站标签搜索功能获取搜索标签页结果的地址,然后把地址保存下来运行脚本。 源代码#coding:utf-8import urllib.requestfrom bs4 import BeautifulSoupimport ti...原创 2018-04-29 13:34:52 · 2867 阅读 · 0 评论 -
python爬取小说(三)数据存储
由于时间关系,我们先把每章的内容存储到数据库。 需要用到sqlite, 接着上一篇,在原基础上修改代码如下:# -*- coding: utf-8 -*-import urllib.requestimport bs4import reimport sqlite3import timeprint ('连接数据库……')cx = sqlite3.connect('PaChon...原创 2018-08-23 16:33:24 · 1416 阅读 · 1 评论 -
python爬取小说(二)书籍基本信息爬取
爬完数据目录和内容后,我们来爬取书籍的基本信息。 在上篇博客的基础上,爬取书籍信息并存入字典 # -*- coding: utf-8 -*-import urllib.requestimport bs4import reimport sqlite3def getHtml(url): user_agent = "Mozilla/5.0 (Windows NT 10.0...原创 2018-08-21 11:03:05 · 2532 阅读 · 0 评论 -
python爬取小说(四)代码优化
本次主要优化章节字段根据爬取顺序入库,各功能函数模块化。# -*- coding: utf-8 -*-import urllib.requestimport bs4import reimport sqlite3import timeprint ('连接数据库……')cx = sqlite3.connect('PaChong.db')# 在该数据库下创建表# cx.execu...原创 2018-09-09 13:01:41 · 1410 阅读 · 11 评论 -
利用python监控去哪儿网机票价格
# -*- coding: utf-8 -*-import xml.etree.ElementTree as etreeimport requestsimport timefrom lxml import etreefrom email.mime.text import MIMETextimport smtplibdef ShowDict(d): print('=====...原创 2018-09-21 15:48:52 · 6606 阅读 · 1 评论 -
python实现聊天室功能
快过年了,我这颗躁动的心啊,根本集中不了精神来详细整理博客了,所以干脆直接贴上代码来,等年后我会详细介绍每一步实现方法。给代码加上详细注释的,大家见谅啊~~~聊天室程序需求:我们要实现的是简单的聊天室的例子,就是允许多个人同时一起聊天,每个人发送的消息所有人都能接收到,类似于 QQ 群的功能,而不是点对点的 QQ 好友之间的聊天。如下图:这里我们首先要知道《python网络编程》知识,其中要明白什么原创 2018-02-11 15:00:20 · 7569 阅读 · 3 评论 -
python爬虫实践——零基础快速入门(四)爬取小猪租房信息
上篇文章我们讲到python爬虫实践——零基础快速入门(三)爬取豆瓣电影接下来我们爬取小猪短租租房信息。进入主页后选择深圳地区的位置。地址如下: http://sz.xiaozhu.com/一,标题爬取按照惯例,我们先复制标题的xpath信息,多复制几个进行对比://*[@id="page_list"]/ul/li[1]/div[2]/div/a/span//*[@id原创 2018-01-29 16:42:54 · 7890 阅读 · 23 评论 -
Python网络爬虫入门(一)——爬取百度贴吧图片
描述:用Python爬去百度贴吧图片并保存到本地。 本人刚学爬虫还不是很熟练,其中难点在于正则表达式的理解;#-*- coding:utf-8-*-import urllibimport re#获取网页源码def getHtml(url): page = urllib.urlopen(url) html = page.read() return html#根据条件原创 2017-04-17 12:43:26 · 2984 阅读 · 5 评论 -
python爬虫入门(二)——爬取代理IP
在我们爬虫的过程中,难免会遇到比较恶心的网站(安全性较高),来阻止我们的爬虫,跑着跑着 就断掉了!报错了啊!丢失连接之类的。幸幸苦苦的抓了半天又得从头来,心累啊!这就是网站的反爬虫在起作用了。一般来说我们会遇到网站反爬虫策略下面几点:限制IP访问频率,超过频率就断开连接。(这种方法解决办法就是,降低爬虫的速度在每个请求前面加上time.sleep;或者不停的更换代理IP,这样就绕过反爬虫机制啦!)原创 2017-07-21 15:30:25 · 3245 阅读 · 0 评论 -
python开发电影查询系统(二)—Django展示
上篇博客讲了python爬取电影信息的后台数据处理,现在我们将Django前端显示。如果对Django还不熟的朋友可以先找资料熟悉一下。 这里我们直接讲。 1.安装好Django后,找到你的工作目录,创建好一个项目find_film:django-admin startproject find_film2.在find_film目录下,即与manage.py文件同级目录下,创建一个app ,就叫F原创 2017-08-17 10:50:19 · 9010 阅读 · 7 评论 -
python开发电影查询系统(一)—python实现后台数据
爬虫也学了很长一段时间了,虽然有些东西还不是很熟悉,但使用python和Django自己做了一个项目,即爬取http://www.bd-film.com/的电影信息,并将数据存储到本地,再通过Django做一个查询入口进行查询。我将代码实现大致分为三部分: 1.电影信息的爬取; 2.数据的存储;(缓存到redis) 3.数据的查询;效果图展示: 1.通过ID进行查询电影:2.通过电影名查询:原创 2017-08-16 16:46:22 · 15216 阅读 · 11 评论 -
关于反爬虫,看这一篇就够了
关于反爬虫,看这一篇就够了编者:本文来自携程酒店研发部研发经理崔广宇在第三期【携程技术微分享】上的分享,以下为整理的内容概要。墙裂建议点击视频回放,“现场”围观段子手攻城狮大崔,如何高智商&高情商地完美碾压爬虫。。。关注携程技术中心微信公号ctriptech,可第一时间获知微分享信息~ 你被爬虫侵扰过么?当你看到“爬虫”两个字的时候,是不是已经有点血脉贲张的感觉了?千万要忍耐,稍稍做点什么,转载 2018-01-22 12:16:46 · 1428 阅读 · 1 评论 -
python爬虫实践——零基础快速入门(六)解决动态页面爬取问题
python爬虫实践——零基础快速入门(六)解决动态页面爬取问题前面我们已经学过爬取豆瓣电影、豆瓣图书TOP250,小猪租房等信息。 相信你现在都能轻易上手爬取其他网站了。通过前面的例子我,我们知道,爬取大量数据的重点在于通过循环翻页提取重要的信息。但是你会遇到,爬取其他网页的时候,有时候没有翻译这个按钮,这TM就尴尬了。比如我们之前爬过的豆瓣电影,去到那个分类页面,发现下面只有“加载跟多”,并没原创 2018-01-31 14:22:10 · 3125 阅读 · 0 评论 -
python爬虫实践——零基础快速入门(五)将爬取的数据存到本地
前面我们已经爬取了豆瓣电影,豆瓣读书,小猪租房的数据,那有人就有疑问了,我爬取那么多数据,怎么把他们保存在本地呢?今天我们就来讲讲如何把爬取的数据信息存储到本地。一、pyhton open() 方法写文件时,我们主要用到with open() 的方法。with open(name,mode,encoding) as file: file.write() #注意这里有缩进哦name : 包含原创 2018-01-30 18:08:24 · 4797 阅读 · 2 评论 -
微信跳一跳游戏Android实现刷分
原文地址https://github.com/wangshub/wechat_jump_game# coding:utf-8'''# === 思路 ===# 核心:每次落稳之后截图,根据截图算出棋子的坐标和下一个块顶面的中点坐标,# 根据两个点的距离乘以一个时间系数获得长按的时间# 识别棋子:靠棋子的颜色来识别位置,通过截图发现最下面一行大概是一条直线,就从上往下一行一行遍历,转载 2018-01-08 10:46:05 · 2957 阅读 · 0 评论 -
python爬虫实践——零基础快速入门(一)
一、环境配置1.下载安装python3为什么使用pyhton3,理由如下:python2以上只维护到2020年,我猜,感觉快要过气了。没有恶心的编码问题,并且更多工具选择pyhton3,新的工具才是生产力。本文都用python3来写。如果你是pyhton2,尝试一下pyhton3,相信你会有不一样的体验。注意选择适合自己电脑的版本。2.安装requests和原创 2018-01-25 18:49:51 · 10924 阅读 · 1 评论 -
python爬虫框架-Scrapy安装详细教程
首先说明一下,我这里讲的是Windows64/32位操作系统下的安装教程。其他linux、Ubuntu环境下的安装暂时还未整理。请自行寻找教程。安装Scrapy主要分为一下九个步骤: 1. 安装python。(相信大家都已经安装好了) 2. 配置python环境变量。(怕大家没有配置,所以这里啰嗦一下) 3. 下载安装pywin32。 4. 下载安装pip和setuptools。(为方便后续原创 2017-07-14 16:22:44 · 26305 阅读 · 8 评论