
【爬虫实践】
文章平均质量分 66
「已注销」
随缘。。。随缘。。。。。
展开
-
自动化爬取新闻软文自主发布平台
工具python2.7 selenium Chrome浏览器获取数据的要求1. 数据来源 http://www.1000t.org/weibo_list.php?page=2 通过控制page的数值,实现网页的跳转。 2. 要获取那些信息? 逐条获取微博频道信息,逐条保存在weibo_list.txt文件中。 3. 怎么获取我们需要的信息? 使用强大的seleniu原创 2017-10-17 08:38:47 · 1550 阅读 · 0 评论 -
【百度爬虫系列 II】关键字搜索url结果汇总(给定关键字和页数)
目的为批量获取百度搜索结果,实现一个自动采集工具,将指定关键词和页数返回搜索结果的url保存在指定文件中。要求给定关键字wd, 页数pn, 存储文件路径save_file_name值。将搜索结果网页页面1到pn上所有网址url采集下来,保存在指定文件中。 思路通过填充请求头将wd和pn补充完整。通过requests请求获取网页文本,将网页文本用lxml解析成标准的html标签格式。根据属原创 2017-11-16 14:04:47 · 19024 阅读 · 0 评论 -
【百度爬虫系列 III】深度搜索(给定网址采集全部url)
在【爬虫之百度搜索 I】单关键字url结果汇总(给定关键字和页数) 我们根据关键字获取了查询的url结果,存储在save_file_name.txt中,接下来需要从save_file_name.txt中逐行读取采集的网址, 抓取给定网址中的所有url。目的给定网址,以及存储文件,将该网页内全部网址采集下,可指定文件存储。 思路用lxml解析工具解析请求的文本,分析网页中url在的位置以及标签会出现原创 2017-11-16 15:24:21 · 7207 阅读 · 0 评论 -
实践项目八:优雅的实时火车票查看器(命令行版)
最近在实验楼学到了一个使用的小项目,用python写一个优雅的火车票查看器,不用登陆12306网站,只要在命令行输入一行命令就可以获得你想要的火车票信息。欣赏效果图打开12306查询8月13日从郑州到杭州的快速火车的车票 下面用命令行版火车票查看器查询同样的信息: 有没有感觉到界面很优雅,排版很整齐,还有颜色的区分,虽然不如12306的页面好看,也独具一番特色。环境:操作系统 : ub原创 2017-08-09 19:41:04 · 2587 阅读 · 0 评论 -
实践项目十:爬取百度百科Python词条相关1000个页面数据(慕课简单爬虫实战)
环境操作系统:ubuntu 16.04python版本:python2.7爬虫架构 根据上面的流程,开始爬取百度百科1000个页面。运行流程很详细的说明。 我们要爬取的信息为 对应在html源码中的信息为: 知道了需要获取那些信息和爬虫的基本流程, 下面我们结合每一部分的功能来实现具体的代码。爬虫调度端启动爬虫,停止爬虫,或者监视爬虫的运行情况。 我们以百度百科pyth原创 2017-08-15 10:38:35 · 2213 阅读 · 0 评论 -
实践项目九:抓取慕课网网页的图片到本地
今天在慕课网学习正则表达式,后面有一个小例子,简单的爬虫,抓取网页中的图片到本地。 这个小例子十分简单,记录一下我遇到的问题。思路:1.抓取网页。2.获取图片地址。3.抓取图片内容并保存在本地。 第一步可以用urllib2模块实现,第三步保存在本地也很简单。下面重点说获取图片地址。获取图片地址现在的url比视频的中的有点区别,在网页中看一下图片的url信息: 你会发现1和2是同一个原创 2017-08-14 22:46:16 · 891 阅读 · 0 评论 -
python使用selenium自动化批量ip查询
1:打开网址, 2:在中间输入ip地址, 3:点击查询 4:进行屏幕截图,并且用ip的名字进行保存,例如127-0-0-1.jpg 5:保存屏幕源码,并且用ip的名字进行保存,同上 6:将源码中出现(*)的ip地址抽取抽取出来#-*- coding:utf-8 -*-import unittestimport timeimport refrom selenium import we原创 2017-09-05 19:40:33 · 1695 阅读 · 0 评论 -
自动化爬取网贷黑名单
需求目标网址:http://www.p2pjd.com/Article_Class_103.html点开链接,获取网贷黑名单的内容,不管信息是什么,每一条都保存为一条数据到txt。将获取的数据中的电话号,手机号,qq号提取出来,保存于另一文件中。代码和上一篇的爬取方法类似:http://blog.youkuaiyun.com/xunalove/article/details/77906343 使用sel原创 2017-09-11 21:46:23 · 2613 阅读 · 0 评论 -
【百度爬虫系列 I】多关键字图片搜索结果汇总
需求模拟百度图片输入关键字,获取结果。将搜索的结果图片保存在文件夹中,以下面格式“关键字_n.jpg”(n取1,2,3,4,…..)思路方法一通过requests请求url。解析获取的html文本,获取图片url集合。 做着的时候发现果然百度的图片不是辣么简单的。(貌似有点复杂) 图一 方法二利用强大的Chrome浏览器的开发者工具(F12)分析百度图片时如何处理请求的。 图二 分原创 2017-11-12 19:49:46 · 3848 阅读 · 0 评论