
python爬虫项目
量化分析
这个作者很懒,什么都没留下…
展开
-
python 获取 中国证券网 的公告
原文地址: http://www.30daydo.com/article/59中国证券网: http://ggjd.cnstock.com/这个网站的公告会比同花顺东方财富的早一点,而且还出现过早上中国证券网已经发了公告,而东财却拿去做午间公告,以至于可以提前获取公告提前埋伏。 生成的公告保存在stock/文件夹下,以日期命名。 下面脚本是循坏检测,如果有新的公告就会继续生原创 2016-07-10 09:01:38 · 2309 阅读 · 0 评论 -
python 破解wp博客后台登陆密码
当时自己架设wp的时候发现默认居然没有验证码,于是写了个小脚本,跑了下。 居然还拿到不少后台。 惊代码:python 暴力破解wordpress博客后台登陆密码(上面只是截取了一个本地的)原创 2016-05-24 23:18:15 · 2418 阅读 · 0 评论 -
python批量下载色影无忌和蜂鸟的图片 爬虫小应用
# -*- coding:utf-8 -*-import re,urllib,sys,os,timedef getAllUrl(): entry=sys.argv[1] #try: getPage=urllib.urlopen(entry).read() #except: # print "Error" pattern=re.compile(r'') web_site_p原创 2014-11-17 15:57:22 · 2595 阅读 · 1 评论 -
python爬虫(一)抓取 色影无忌图片
因为平时爱好摄影,所以喜欢看看色影无忌论坛的获奖摄影作品,所以写了个小script用来抓取上面的获奖图片,亲自测试可以使用。# -*- coding: UTF-8 -*-#作者Rocky Chen import re, urllib, sys, os, time, urllib2, cookielib, stringclass Download: def __init__(self原创 2014-12-15 13:55:11 · 11418 阅读 · 2 评论 -
python 爬虫(二) 爬虫知乎 制作成电子书发送到kindle
平时关注比较多的知乎话题,上网的状态下看着会容易走神,所以写了个python脚本用来抓取自己喜欢的问题,然后推送到自己kinle看。代码: python爬虫 推送知乎文章到kindle电子书原创 2016-05-24 23:12:41 · 4985 阅读 · 0 评论 -
编程实现 自动获取每天深圳一手房二手房的成交量与成交面积
原文链接:http://30daydo.com/article/106静观其变,目前的态势不宜参与进去。每天自动获取深圳上海北京的新房二手房的成交量#-*-coding=utf-8-*-__author__ = 'rocky'#获取每天深圳一手房,二手房的成交套数与面积,并且写入数据库#主要就是正则表达抓取几个数字import urlli原创 2016-10-12 15:59:58 · 1346 阅读 · 0 评论 -
itchat 微信接口不能直接发消息给指定用户
很久没有用itchat,最近有需求需要用到,所以把以前用的代码进行复用。 itchat.auto_login(hotReload=True) itchat.send(content,toUserName='filehelper') account=itchat.get_friends('user1') print account itchat.s原创 2017-05-24 23:15:32 · 12444 阅读 · 4 评论 -
安居客app端抓取数据包 分析数据包的签名 编写爬虫脚本
为什么要这么蛋疼,要从app入手来爬虫 ? 网页的数据不是也可以爬吗? 对于少量数据的抓取,网页爬取是完全没问题的。 至少爬一个城市的房价信息是可以的。但是,对于要抓取百万级数据量的爬虫,安居客做了多重反爬策略,如果你没遇到,说明你的数据量不大。安居客的反爬策略有 验证码, 封IP。 而IP被封后,尝试过使用代理IP去绕过,不过不知道为什么一直返回404, 不知到安居客用的什么原创 2017-08-13 18:17:03 · 5634 阅读 · 6 评论 -
scrapy修改user-agent的几种方法
[scrapy]修改爬虫默认user agent的多种方法很有启发的。原创 2017-12-14 17:43:50 · 3547 阅读 · 0 评论