
爬虫
文章平均质量分 83
褶皱的包子
XXXXXXXXXXXXXXXXXXXXX
展开
-
selenium破解极限
一共分为两端段代码: 第一段:获取cookie第二段:通过cookie登陆这里以百度云为例:第一部分:保存cookies,直接在cmd中执行就好>>> from selenium import webdriver>>> from selenium.webdriver.support.ui import WebDriverWait>>> fr...原创 2018-04-13 10:53:06 · 275 阅读 · 0 评论 -
文件的保存
这是我个人总结,或好或坏,能用就行:第一种:调用json 将Python内置类型序列化为json对象后写入文件# json_dump.pyimport jsonlistStr = [{"city": "北京"}, {"name": "大刘"}]json.dump(listStr, open("listStr.json","w"), ensure_ascii=Fa原创 2018-07-29 14:43:22 · 240 阅读 · 0 评论 -
fiddler安装使用,以及遇到的问题
Fiddler是什么?Fiddler是一个http调试代理,它能 够记录所有的你电脑和互联网之间的http通讯,Fiddler 可以也可以让你检查所有的http通讯,设置断点,以及Fiddle 所有的“进出”的数据(指cookie,html,js,css等文件,这些都可以让你胡乱修改的意思)。 Fiddler 要比其他的网络调试器要更加简单,因为它仅仅暴露http通讯还有提供一个用户友好的格式...原创 2018-09-25 18:42:19 · 14952 阅读 · 2 评论 -
urllib和urllib2
先说说Python2中的url与urllib2(参考此处): 在python2中,urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:1、urllib2可以接受一个Request类的实例来设置URL请求的headers,例如:req = urllib2.Request( url=url, data=postdata...转载 2019-02-19 13:05:54 · 295 阅读 · 0 评论 -
Selenium中的错误__WebDriverException,unknown error: call function result missing 'value'
遇到这种未知问题的时候,首先去chromedriver官网上下载最新驱动文件,替换后再试,我反正是替换后就好了,还有问题的,欢迎在评论中贴出,共同探讨。注:chromedriver官网打不开的话,可以去淘宝镜像,地址:http://npm.taobao.org/mirrors,自己去找找替换之后可能会出现这样的问题:你应该在goole中查看相应的版本我下载的是没有问...原创 2019-04-09 11:12:50 · 537 阅读 · 0 评论 -
多线程以及队列获取域名排行网址
使用最基础的线程,队列以及锁的概念,对http://top.chinaz.com/all/index.html进行的数据获取。具体情况,请直接运行代码即可import requestsfrom lxml import etreefrom threading import Thread, Lockfrom queue import Queueimport reimport csv...原创 2019-04-28 09:22:28 · 204 阅读 · 0 评论 -
获取市场上的股票代码
使用python2.7,rullib2,re对http://www.txsec.com/inc1/gpdm.asp进行数据获取,见代码:# -*- coding: utf-8 -*-import urllibimport urllib2import reimport csvpost_url = 'http://www.txsec.com/inc1/gpdm.asp'head...原创 2019-04-29 16:33:01 · 6138 阅读 · 0 评论 -
获取西刺代理的IP
环境:Python2.7,requests,bs4,re,获取数据的网址:西刺代理得到的结果,后续可自行构建代理池或者保存文件:代码段:#coding=utf8import requestsfrom bs4 import BeautifulSoupimport reimport os.pathuser_agent = 'Mozilla/5.0 (Macintosh...原创 2019-04-29 16:57:49 · 1442 阅读 · 0 评论 -
爬虫基础知识
什么是爬虫?爬虫:就是抓取网页数据的程序。HTTP和HTTPSHTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure ...翻译 2018-07-23 18:21:26 · 849 阅读 · 0 评论 -
数据写入Excel
通过xlwt这个库,可以将数据写入Excel中,而且通过xlwt写excel格式可以控制 颜色、模式、编码、背景色下面基本上是一个练习,熟悉如何操作xlwt库的下面是代码,所有的内容,和介绍,基本上都卸载了上面,一步一步来,基本上都可以熟悉。#coding=utf8import xlwt,datetime#创建一个Excel表格wbk = xlwt.Workbook(原创 2018-01-25 16:06:48 · 3560 阅读 · 0 评论 -
python获取Excel数据
Python中一般使用xlrd(excel read)来读取Excel文件,使用xlwt(excel write)来生成Excel文件(可以控制Excel中单元格的格式),需要注意的是,用xlrd读取excel是不能对其进行操作的,详细的介绍,基本上都在代码中写明直接放代码:#coding=utf8# 导入xlrd模块import xlrdfrom xlutils.copy原创 2018-01-25 16:15:33 · 10171 阅读 · 3 评论 -
python 时间字符串和时间戳之间的转换
1.将字符串的时间转换为时间戳 方法: a = "2013-10-10 23:40:00" 将其转换为时间数组 import time timeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S") 转换为时间戳: timeStamp = int(time.mktime(timeArray转载 2018-01-19 15:11:40 · 49700 阅读 · 0 评论 -
代理ip
代理(proxies参数)如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:import requests# 根据协议类型,选择不同的代理proxies = { "http": "http://12.34.56.79:9527", "https": "http://12.34.56.79:9527",}response = requests.g...翻译 2018-02-23 17:09:37 · 7544 阅读 · 0 评论 -
使用cookie登陆知乎
只是想说明一个问题,Cookie可以维持登录状态,有些网页当中,访问之后的cookie里面带有登陆账号,和登陆密码,这样可以使用cookie直接访问网页,如知乎,首先登录知乎,将Headers中的Cookie内容复制下来这个需要替换成你自己的Cookie,将其设置到Headers里面,然后发送请求,示例如下:import requestsheaders = { 'Cookie': '_...原创 2018-02-23 17:08:26 · 2372 阅读 · 0 评论 -
获取选股宝7x24小时数据
今天没事翻看数据,无意当中注意到选股宝的7x24即时播报的数据和华为街见闻中的快讯要闻是同一个api,如下:华为街要闻地址:华尔街见闻选股宝:选股宝访问的接口:https://api-prod.wallstreetcn.com/apiv1/content/lives参数问题:本次抓取的是华尔街实时新闻,大家可自主选择需要抓取的channel,或者搞个并发,同时抓取五个channel...原创 2019-04-30 15:51:25 · 3099 阅读 · 0 评论