
爬虫项目
小六工作室
python + 前端 + 后端 ,爱好爬虫,全自学。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python项目之 爬虫爬取煎蛋jandan的妹子图-下
python项目之 爬虫爬取煎蛋jandan的妹子图-下函数如下读取全部单个txt组合成一个TXT文件,并把网址保存在all_imag_urls中 read_write_txt_to_main() 读取单个TXT件的网址 get_url() 每一个图片保存在本地 get_imags(all_imag_urls)最终结果如下源码如下# coding:utf-8#############原创 2016-03-08 16:36:56 · 6925 阅读 · 0 评论 -
python项目之 天气 优化版
python项目之 天气 优化版抓取的数据源 http://wthrcdn.etouch.cn/WeatherApi?citykey=101020100使用的类库 thinter requests beautifulsoup思路抓取到返回的数据,解析后,存到本地和显示在GUI界面上。更新的地方全部封装为函数界面如下源码奉上#encoding = 'utf8'#######原创 2016-01-09 19:35:44 · 9509 阅读 · 0 评论 -
python项目之 天气程序 带GUI
python项目之 天气程序 带GUI抓取的数据源 http://wthrcdn.etouch.cn/WeatherApi?citykey=101020100使用的类库 thinter requests beautifulsoup思路抓取到返回的数据,解析后,存到本地和显示在GUI界面上。需要下一步更新下一步需要封装成函数,数据使用词典存。原创 2016-01-09 19:07:39 · 11525 阅读 · 0 评论 -
python项目之 路由器抓取器
路由器抓取器使用的库 selenium firefox浏览器路由器型号FAST 某型号的 思路本来准备使用requests的,然后抓取的网页没有信息,原因是网页是动态网页,数据不能被抓取。 最后选取selenium库实现的,模拟网页登陆。 抓取到外网 mac地址和ip,用户列表,然后保存成文本。可以查到谁在用网络,防蹭网原创 2016-01-08 21:42:17 · 14760 阅读 · 0 评论 -
python项目之 爬取代理的ip地址
python项目之 爬取代理的ip地址爬取网站的代理ip地址,解析,保存为文本文件。练习源码# coding = utf-8##################################################### coding by 刘云飞####################################################import requestsim原创 2016-01-20 21:50:04 · 10234 阅读 · 1 评论 -
python学习之6 requests模拟浏览器抓数据
python学习之 requests模拟浏览器抓数据在爬网站时,有时候会遇到返回500,被服务器拒绝的情况。 需要做的是,模拟浏览器登录。 即增加,headersheaders = { 'Host': 'blog.youkuaiyun.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/2010010原创 2016-01-27 19:36:06 · 17207 阅读 · 0 评论 -
python项目之 增加博客访问量
python项目之 增加博客访问量为什么要有?写博客的访问量太低,没动力继续写,需要刷榜增加人气。 当然了,学技术为主,你懂的!需准备文件代理的ip地址写成txt文件,格式 http://11.11.11.11:8888博客的地址写成txt文件 博客标题,下面是博客地址 http://XXXXXXXX思路模拟浏览器登录,为了防止被服务器堵IP,还是用到了代理IP地址。改进后续再把原创 2016-01-28 21:08:14 · 10016 阅读 · 0 评论 -
网络抓包工具 Fiddler
网络抓包工具 Fiddler下载网址http://www.telerik.com/fiddler简介Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据(指cookie,html,js,css等文件,这些都可以让你胡乱修改的意思)。 Fiddler 要比其他的网络调试器要更加简单原创 2016-03-01 08:26:25 · 6781 阅读 · 0 评论 -
python项目之 爬虫爬取煎蛋jandan的妹子图-上
python项目之 爬虫爬取煎蛋jandan的妹子图-上抓取妹子图练练手。网页url格式 http://jandan.net/ooxx/page-1777#comment 只需改变页码1777即可分析页面源码发现妹子图有两个一个是缩略图<img src="http://ww1.sinaimg.cn/mw600/4bf31e43jw1f09htnzkh5j20dw0kumz0.jpg" /原创 2016-03-08 14:20:55 · 10075 阅读 · 0 评论 -
python项目之 抓取动态网页 抓取路由器客户
python项目之 抓取动态网页 抓取路由器客户前身前面有一片文章写得是爬取路由器的客户,使用模拟浏览器登录的方式得到的。 python项目之 路由器抓取器 地址为:http://blog.youkuaiyun.com/lyffly2011/article/details/50485398改进在学习完前端设计的知识后,意识到可以通过HTTP请求,直接得到动态的数据。实现思路打开浏览器调试功能,F1原创 2016-03-13 19:31:18 · 7218 阅读 · 1 评论