
爬虫项目汇总
把我看到的,想到的,用到的爬虫小项目都放在这里
褶皱的包子
XXXXXXXXXXXXXXXXXXXXX
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
获取选股宝7x24小时数据
今天没事翻看数据,无意当中注意到选股宝的7x24即时播报的数据和华为街见闻中的快讯要闻是同一个api,如下:华为街要闻地址:华尔街见闻选股宝:选股宝访问的接口:https://api-prod.wallstreetcn.com/apiv1/content/lives参数问题:本次抓取的是华尔街实时新闻,大家可自主选择需要抓取的channel,或者搞个并发,同时抓取五个channel...原创 2019-04-30 15:51:25 · 3303 阅读 · 0 评论 -
获取西刺代理的IP
环境:Python2.7,requests,bs4,re,获取数据的网址:西刺代理得到的结果,后续可自行构建代理池或者保存文件:代码段:#coding=utf8import requestsfrom bs4 import BeautifulSoupimport reimport os.pathuser_agent = 'Mozilla/5.0 (Macintosh...原创 2019-04-29 16:57:49 · 1458 阅读 · 0 评论 -
获取市场上的股票代码
使用python2.7,rullib2,re对http://www.txsec.com/inc1/gpdm.asp进行数据获取,见代码:# -*- coding: utf-8 -*-import urllibimport urllib2import reimport csvpost_url = 'http://www.txsec.com/inc1/gpdm.asp'head...原创 2019-04-29 16:33:01 · 6157 阅读 · 0 评论 -
多线程以及队列获取域名排行网址
使用最基础的线程,队列以及锁的概念,对http://top.chinaz.com/all/index.html进行的数据获取。具体情况,请直接运行代码即可import requestsfrom lxml import etreefrom threading import Thread, Lockfrom queue import Queueimport reimport csv...原创 2019-04-28 09:22:28 · 214 阅读 · 0 评论 -
随机返回经典语句接口API
api接口:https://www.liutianyou.com/api/?type=js&charset=utf-8可以单独将上面链接,在浏览器中查看效果这是get请求,参数:type=js&charset=utf-8返回一个js方法 方法名为writeText如果你想在前端使用,在你想要显示的地方,写上下面两句代码就ok了:<script ty...原创 2019-04-24 18:20:29 · 5680 阅读 · 0 评论 -
搜狗ocr识别接口
详细情况在代码中说明,如果不想自己使用TensorFlow,可使用下面接口这是要识别的图片:最终识别的结果:This is a lot of 12 point text to test theocr code and see if it works on all typesof file format.The quick brown dog jumped over thel...翻译 2018-10-19 17:17:00 · 11347 阅读 · 0 评论