- 博客(50)
- 收藏
- 关注
转载 python list排序,list嵌套字典根据key排序
1.给字典按照value按照从大到小排序 排序 dict = {'a':21, 'b':5, 'c':3, 'd':54, 'e':74, 'f':0}new_dict = sorted(dict.iteritems(), key=lambda d:d[1], reverse = T...
2018-08-23 11:16:00
990
转载 scrapy <二>____转存log日志
sitting.py # 日志文件 # (最好为爬虫名称,例如:qiushi.log)today = datetime.datetime.now()log_file_path = "log/BaiduSpider_{}_{}_{}.log".format(today....
2018-08-23 10:26:00
222
转载 scrapy <一>_____开启多个爬虫
1 spiders同级目录创建commands crawlall.py #-*-coding:utf-8-*-from scrapy.commands import ScrapyCommandfrom scrapy.crawler import CrawlerRunner...
2018-08-23 10:20:00
230
转载 django 点击验证码 刷新验证码
function codes() { url = '/captcha/refresh?' + Math.random() $.get(url, function (result) { console.log(re...
2018-05-18 15:37:00
1002
转载 Django中的日期和时间格式 DateTimeField
创建django的model时,有DateTimeField、DateField和TimeField三种类型可以用来创建日期字段,其值分别对应着datetime()、date()、time()三中对象。这三个field有着相同的参数auto_now和auto_now_add,表面上看起来...
2018-05-06 16:36:00
710
转载 redis 部署分布式
准备工作 1.安装scrapy_redis包,打开cmd工具,执行命令pip install scrapy_redis 2.准备好一个没有BUG,没有报错的爬虫项目 3.准备好redis主服务器还有跟程序相关的mysql数据库 前提mysql数据库要打开允许远程连接,因为my...
2018-05-02 23:20:00
141
转载 github 遇到的问题
注册GitHub后你就会有0.3G的免费空间,不过只能创建公开项目,这也满足代码分享的目的,我最喜欢的倒是它的代码展示方式,可以直接浏览你的代码,代码是经过高亮、添加行号处理过的,十分漂亮,体验一流,比如这个Webpy托管的地方。而作为想要了解你代码的人,可以选择直接在线浏览自己感兴趣的,也可...
2018-04-20 21:22:00
106
转载 python中的urlencode与urldecode
当url地址含有中文,或者参数有中文的时候,这个算是很正常了,但是把这样的url作为参数传递的时候(最常见的callback),需要把一些中文甚至'/'做一下编码转换。 一、urlencode urllib库里面有个urlencode函数,可以把key-value这样的键值对转换成我们想...
2018-04-16 20:36:00
123
转载 django 基本操作,猜数字,点击按钮跳转页面
views.py from django.shortcuts import renderfrom django.http import HttpResponseimport random# Create your views here.numbers = random.ran...
2018-04-16 17:41:00
3038
转载 redis
http://www.runoob.com/redis/redis-tutorial.html 转载于:https://my.oschina.net/u/3771014/blog/1785...
2018-03-26 21:51:00
72
转载 selenium-webdriver(python) -- 鼠标事件(双击,右键)
https://blog.youkuaiyun.com/xiaodanpeng/article/details/50999026 转载于:https://my.oschina.net/u/377101...
2018-03-26 21:40:00
438
转载 selenium之 chromedriver与chrome版本映射表(更新至v2.36)
http://chromedriver.storage.googleapis.com/index.html附: 所有chromedriver均可在下面链接中下载到: https://blog.youkuaiyun.com/huilan_same/article/details/5189667...
2018-03-25 12:03:00
138
转载 selenium 与scrapy 联合用法 淘宝爬虫
middlewares.py # -*- coding: utf-8 -*-# Define here the models for your spider middleware## See documentation in:# http://doc.scrapy.or...
2018-03-21 23:04:00
154
转载 scrapy实战8关于数据异步写入mysql: 环境:python3 爬取网址:腾讯社招(http://hr.tencent.com/position.php?keywords=&tid=0&star...
pipelines.py from twisted.enterprise import adbapiimport pymysqlimport pymysql.cursorsclass MysqlTwistedPipeline(object): def __init__(s...
2018-03-21 12:11:00
403
转载 mysql 的一些基础
# -*- coding:utf-8 -*-import pymysql# mysql_python python2 中使用者个包支持python操作mysql# 1链接数据库db = pymysql.connect( # 链接的数据库的host主机地址:默认本地数据库使用l...
2018-03-19 17:49:00
90
转载 selenium 动态登录,截取验证码登录
# -*- coding:utf-8 -*-from selenium import webdriverfrom PythonHTTP调用示例.YDMHTTP import YDMHttp#引用显示等待from selenium.webdriver.support.ui import ...
2018-03-14 08:59:00
644
转载 selenium 爬虫
基础: """Selenium是一个用于文本应用程序测试工具,提供一些函数通过这些函数可以指定操作到指定的标签,这些定位标签API函数就是通过python实现的,框架底层是同过javascipt实现的,完全模拟用户操作#使用selenium做爬虫的目的:有些网站通过动态加载的方...
2018-03-13 19:05:00
119
转载 利用session ()函数代码登陆知乎
# -*- coding:utf-8 -*-import reimport requestsimport http.cookiejar as cookieJarimport timeimport codecs"""1使用requests中的session会话加载Cookie,如果...
2018-03-12 22:09:00
164
转载 requests _demo
# -*- coding:utf-8 -*-# requests 网络请求包,基于urllib封装第三方请求包# pip install requesrs 下载包import requests# 支持所有类型的请求# requests.get()# requests.post(...
2018-03-12 20:39:00
802
转载 爬虫之代理ip的用法
#coding:utf-8from urllib import requesturl= 'http://www.baidu.com'# 准备代理ip地址proxy_ip = { 'http':'139.224.135.94:80'}# 根据代理ip创建代理对象proxy...
2018-03-11 11:39:00
167
转载 爬虫定位 3 bs4
# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport codecs# BeautifulSoup 是python支持第三方的解析包,用于解析HTML网页,提取信息# lxml 第三方的解析包,解析html 速度比较快,...
2018-03-08 20:14:00
409
转载 利用正则爬取智联
#coding:utf-8import refrom urllib import request,parse# xlwt 操作excel表格import xlwtfrom random import choice# 1.创建一个工作簿对象# workbook = xlwt.Wor...
2018-03-06 22:09:00
151
转载 正则表达式内的常用的函数 <2>
# -*- coding:utf-8 -*-# 正则函数import re# 1,match()# 2 search()string = "hel3lo wor5ld hel4lo, he,he6ll,hool"pattern = re.compile("h.*?l")# 3 f...
2018-03-05 20:02:00
137
转载 爬虫定位 2 正则表达式 <1>
# -*- coding:utf-8 -*-import re# re 模块是python中内置的用来支持正则表达式的模块# 正则表达式""""""string = "hello word"#准备正则pattern = re.compile("hello")# 2 使用正...
2018-03-05 18:00:00
201
转载 基于requests的51job数据爬取并储存
#!/usr/bin/env python# -*- coding:utf-8 -*-import requestsfrom fake_useragent import UserAgentfrom lxml import etreeagent = UserAgent()url =...
2018-03-05 10:45:00
365
转载 爬虫定位 1 xpath基本用法
#!/usr/bin/env python# -*- coding:utf-8 -*-"""1. 网页的解析方式1) xpath(简单)2) 正则(最难)3) css(需要懂网页的css)4) bs4(比xpath难一点点)2. xpath的基本用法1) 环境准备: ...
2018-03-05 10:43:00
248
转载 爬虫请求2 (2)
#!/usr/bin/env python# -*- coding:utf-8 -*-import requestsimport os# 如果url中的参数包含中文,那么需要先编码,否则对方服务器不识别# 参数是中文的必须编码,requests包会自动编码city = inp...
2018-03-05 10:42:00
98
转载 常用的代码格式
utf-8:全球通用编码 ascii:能存储字母/数字/符号,美国专用 gbk|gb2312|gb18030:能够存储汉字 转载于:https://my.oschina.net/u/3...
2018-03-01 19:32:00
626
转载 爬虫请求2
#!/usr/bin/env python# -*- coding:utf-8 -*-# Cookie:小蛋糕,饼干# 特点# 1. 用于存储用户的某些信息(不包含隐私信息)# 2. 只用于存储少量数据# 3. cookie是个文件,位于浏览器# 4. cookie有生命周期,...
2018-02-27 19:51:00
99
转载 爬虫网络请求1
#!/usr/bin/env python# -*- coding:utf-8 -*-# import urllib# import urllib2# import urllib3# import httpimport requests# 服务器向客户端返回的数据格式有哪些?...
2018-02-27 19:49:00
77
转载 爬虫程序,爬取图片
#!/usr/bin/env python# -*- coding:utf-8 -*-# 获取网页源码/下载网页/图片/视频/音频....import requests# 解析网页相关数据from lxml import etree# 操作文件夹/路径import os#...
2018-02-26 13:21:00
414
转载 python 简单的数据库 sqlite
'''练习:1,创建一个学生成绩表 Grades,学号 姓名 成绩 名次CREATE TABLE Grades (num INTEGER PRIMARY KEY,name TEXT,grade INTEGER,rank INTEGER)2,往表中插入10数据INSERT IN ...
2018-02-05 18:04:00
143
转载 replace() ,strip(),split(),join().函数处理字符串
#replace(old,new,count),old是字符串,new是要替代的字符串,count是次数list_3 = '张\n三\n\n\n's = list_3.replace('\n','')print(s)# 张三 # strip(),是去除首尾两端的字符串,中间不能去除...
2018-02-02 21:56:00
282
转载 匿名函数
# -*- coding: utf-8 -*-# 匿名函数?# 1.不用给函数取名# 2.使用方便,随时定义,随时使用def calc_x(x): return x*xrs = calc_x(10)print(rs)# lambda 参数列表:函数执行的简单逻辑代码...
2018-02-02 21:45:00
61
转载 装饰器 之@property 装饰函数
# @property 负责装饰对象函数,让其生成对应的setter和getter 函数 # 调用的时候,直接可以使用对象名.函数名,调用 '''判断输入参数是不是想要的类型普通的修改、添加属性已经不能满足创建类变量来判断, @property'''class Pe...
2018-02-02 13:38:00
117
转载 python 类和对象 一 setattr() delattr() getattr() hasattr() 函数的区别
# # 什么是类?类是具有相同属性和行为方法的事物的抽象的集合## 类的例子:人类,鱼类,猴子类# 类的作用:创建对象,一般会在类中定义一些属性和函数,当使用类创建对象的时候,该对象就会拥有类中定于的这些属性和函数# 类中一些属性和函数,是由所有的对象身上共同的属性和行为抽离出来的# ...
2018-02-01 21:19:00
129
转载 python 类和对象 3
1 __slots__函数 限制只有定义的这些属性才可以动态添加 # 限制只有定义的这些属性才可以动态添加# 以元组的方式定义能给对象添加的属性,除此之外的属性不能添加,对动态添加属性可以做出一些限制class Er(object): def __init__(self,nam...
2018-02-01 18:17:00
77
转载 python 类和对象 之存储数据
# 声明一个类型class People(object): # 类变量 file_name = 'student.txt' def __init__(self, name, school): self.name = name sel...
2018-02-01 13:58:00
797
转载 python 中的类和对象 2
# 面向对象编程的三个特点: 封装, 继承, 多态# 封装:函数是封装代码的基本单位,类和对象的封装属于更高级的封装方式, \# 类中经常声明一些对象属性,用来保存数据,在类中声明的函数操作数据,不同功能可以封装不同的函数# 继承特点: # 1子类继承父类,拥有父类...
2018-02-01 13:34:00
73
转载 python2与 3 的一些区别 二
1 sorted() 可以对数字,字符串(ASCII)进行排序 list = [12,3,4,4,3,4,5,5,6,4,6]s = sorted(list)print(s)#[3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 12]# 默认升序排列# 降序排列de...
2018-01-31 19:45:00
66
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人