- 博客(25)
- 收藏
- 关注
原创 用python实现1-100的和
def sumStartToEnd(start,end): sum = 0 for n in range(start,end+1,1): sum = sum + n return sum #if __name__ == '__main__' : print(sumStartToEnd(1,10000)) [python] view ...
2018-03-22 12:36:45
5956
转载 从内存利用和CPU利用开始了解List和Tuple的优缺点
从内存利用和CPU利用开始了解List和Tuple的优缺点定义 List:动态数组,元素可变,可改变大小(append,resize)Tuple:静态数组,不可变,数据一旦创建后不可改变List的内存利用 当创建N个元素的List时,Python的动态内存分配长N+1个元素的内存,第一个元素存储列表长度,和列表的元信息。 当Append一个元素时,Python将创建一个足够大的列表,来容纳N个元素...
2018-03-22 11:43:52
938
原创 百度翻译
# coding=utf-8import requestsimport jsonimport sysclass BaiduFanyi: def __init__(self,query_string): # 1.post url,data self.query_string= query_string self.post_url = "http://fanyi.b...
2018-03-07 22:19:51
964
原创 登录人人网
import requestsimport resession = requests.session()url = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = { "User-Agent": "
2018-03-07 22:19:41
1974
原创 登录人人网 cookie
import requestsimport reurl = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Int
2018-03-07 22:19:16
1339
原创 登录人人网 cookie2
import requestsimport reurl = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Int
2018-03-07 22:19:06
612
原创 12306网站 ~免证书
import requestsurl = "https://www.12306.cn/mormhweb/"proxies = {"https":"https://177.8.169.255:3128"}r = requests.get(url,timeout=3,proxies=proxies,verify=False)assert r.status_code == 200print(r.cont...
2018-03-07 22:18:36
309
原创 GET和POST方法
HTTP请求主要分为Get和Post两种方法GET是从服务器上获取数据,POST是向服务器传送数据GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“Get”请求的参数是URL的一部分。 例如: http://www.baidu.com/s?wd=ChinesePOST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向H...
2018-03-07 22:18:23
262
原创 json
# coding=utf-8import requestsimport jsonfrom pprint import pprinturl = "https://m.douban.com/rexxar/api/v2/subject_collection/movie_showing/items?start=0&count=18"r = requests.get(url)json_respons...
2018-03-07 22:18:01
176
原创 json_load_jump
# coding=utf-8import json#json.loadwith open("douban.json","r",encoding="utf-8") as f: #f就是一个类文件对象 t = json.load(f)print(type(t))#json.dumpwith open("douban1.json","w",encoding="utf-8") as f:
2018-03-07 22:17:19
398
原创 使用scrapy爬取京东商城中的书籍信息
爬取京东商城中所有的Python书籍的名字和价格信息JDBookSpider代码如下:# -*- coding: utf-8 -*-import scrapyfrom scrapy import Requestfrom scrapy_splash import SplashRequestlua_script = '''function main(splash) splash:go(splas...
2018-03-07 22:16:38
989
原创 Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)
Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。语法 strip()方法语法:str.strip([chars]);1参数 chars – 移除字符串头尾指定的字符。 返回值 返回移除字符串头尾指定的字符生成的新字符串。只移除字符串头尾指定的字符,中间部分不会移除。实例str = "0000000this is string example....wow!!!0000...
2018-03-07 22:07:19
7623
原创 爬取贴吧多页数据
# coding=utf-8import requestsclass TiebaSpider: def __init__(self,tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&
2017-10-30 16:44:01
607
原创 代替浏览器行为爬取数据
# coding=utf-8import requestsheaders = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"}# url = "http
2017-10-30 16:41:16
314
原创 爬取 百度logo(图片)
# coding=utf-8import requestsr = requests.get("https://www.baidu.com/img/bd_logo1.png")with open("baidu.png","wb") as f: f.write(r.content)
2017-10-30 16:39:34
5238
1
原创 发送POST请求 使用代理 处理cookies session
哪些地方我们会用到POST请求:登录注册( POST 比 GET 更安全)需要传输大文本内容的时候( POST 请求对数据长度没有要求)所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求用法:response = requests.post("http://www.baidu.com/", data = data,head
2017-10-30 16:25:19
2671
原创 发送带header的请求 发送带参数的请求
为什么请求需要带上header?模拟浏览器,欺骗服务器,获取和浏览器一致的内容header的形式:字典headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99
2017-10-30 16:22:02
8603
原创 requests入门 response的常用方法 response.text 和response.content的区别
为什么要学习requests,而不是urllib?1. requests的底层实现就是urllib2. requests在python2 和 python3中通用,方法完全一样3. request简单易用4. Requests能够自动帮助我们解压(gzip压缩的等)网页内容requests的作用作用:发送网络请求,返回响应数据response = req
2017-10-30 16:03:11
16619
原创 爬虫学习01 str类型和bytes类型 Unicode UTF8 ASCII 的补充 str bytes如何转化
bytes:二进制互联网上的数据都是以二进制方式传输的str: unicode的呈现形式字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字符号等字符集(Character)是多个字符的集合字符集包括:ASCII字符集、GB2312字符集、GB18030字符集、Unicode字符集等ASCII编码是1个字节,而Unico
2017-10-30 15:47:50
548
原创 响应状态码 status code
202: 成功302: 临时转移至新的url307: 临时转移至新的url404: not found500: 服务器内部错误
2017-10-30 15:44:29
800
原创 url的形式
形式 scheme://host[:port#]/path/.../[?query-string][#anchor]scheme:协议(例如:http,https,ftp)host:服务器的IP地址或者域名port:服务器的端口(如果是走协议默认端口,80 or 443)path:访问资源的路径query-string:参数,发送给http服务器的数据anchor:
2017-10-29 17:28:31
1089
原创 HTTP和HTTPS
HTTP超文本传输协议默认端口号:80HTTPSHTTP+SSL(安全套接字层)默认端口号:443HTTPS比HTTP更安全,但是性能更低
2017-10-29 17:05:44
506
原创 爬虫学习01 什么是爬虫 爬虫的分类
网络爬虫(又被称为网页蜘蛛,网页机器人),模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序 浏览器能做的事情,原则上爬虫都能够做
2017-10-29 16:05:21
3750
1
转载 爬虫学习01 API
API 美 [epi'aɪ] n.应用编程接口网络应用程序编程接口(Application Programming Interface);转载的://ww.zhihu.com/question/22113447/answer/88080877用A公司和B公司举例A有数
2017-10-29 15:38:00
393
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人