- 博客(10)
- 问答 (1)
- 收藏
- 关注

原创 mysql命令总结
查看有哪些数据库show databases 使用数据库use database 查看当前数据库select database() 创建数据库craeate database 数据库名 charset=utf8 删除数据库drop database 数据名创建表create table table_name( id int unsigned ,...
2018-08-18 21:50:31
190

原创 关于scrapy流程的总结分析
自己总结的一些分析,可能比较散乱,凑合看下,有遗漏的请指教以爬虫为起点: 1.爬虫提取start_url(列表或元组)的地址, 组装成request对象,给爬虫中间件,然后发送给引擎 由引擎传递给调度器 2.调度器从请求队列中提取request发送给引擎, request通过引擎传递下载器中间件,再给下载器 3.下载器通过发送request,获得响应,响应再通过下...
2018-08-17 16:12:05
593
1
转载 ASCII、unicode和UTF-8的起源
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为”字节”。再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为”计算机”。开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们...
2018-08-19 17:11:58
284
原创 关于代理ip检测
整理了一些方法,可以参考下。 1.retrying模块使用demoimport requestsfrom retrying import retryheaders = {}@retry(stop_max_attempt_number=3) #最大重试3次,3次全部报错,才会报错def parse_url(url) response = requests.get(url...
2018-08-19 17:02:21
2245
转载 关于GIL的一些理解总结
GIL全局解释器锁(cpython) 一个线程运行python,而其他N个睡眠或者等待I/O (即保证同一时刻只有一个线程对共享资源进行存取) Python线程也可以等待threading.lock或者线程模块中的其他同步对象,线程处于这种状态也称之为“睡眠”。线程如何切换?协同式多任务处理: 就是线程睡眠或等待网络I/O ,其他线程有机会获取GIL执行代码,礼貌的运行方式,它允许...
2018-08-18 16:04:27
517
原创 HTTP与HTTPS请求
网络爬虫工作过程可以理解为模拟浏览器操作的过程,浏览器的主要功能是向服务器发出请求,在浏览器窗口中展示服务器返回的网络资源。一、浏览器处理网页的过程: 1.在浏览器输入URL地址,浏览器先通过DNS服务器查找URL的域名对应的IP地址。2.浏览器会向IP地址对应的web服务器发送HTTP请求,去获取该IP所对应的的html文件,Web服务器响应请求,将html文件发送回给浏览器3.浏...
2018-08-18 15:38:56
1036
原创 正则表达式小结
RE模块的操作:Regular Expression (描述某种规则) Match object (匹配对象) result = re.match (正则表达式,要匹配的字符串) match方法返回匹配对象,否则返回None.(注意不是空字符串“”) 匹配对象Macth Object具有group方法,用来返回匹配对象。匹配单个字符 字符 功能. 匹配任意 1 个字符(除了\...
2018-08-18 12:23:44
168
原创 网络编程小知识点
1.网络分层 (1)链路层——链路层(通过广播找到对应网卡,会引起广播风暴,优化出现了网络层)mac地址(理论上全球唯一)》》》》网卡(设备)(2)网络层——网络层(通过ip地址划分不同的子网,避免广播风暴)ip地址》》》》电脑(主机)ip分为ipv4 跟ipv6(ivp4公网用完了,现实用的是子网) (3)传输层——传输层端口》》》》网络程序(进程)每一个使用网卡的程...
2018-08-18 12:11:14
169
原创 通过Fiddler进行手机抓包
通过Fiddler进行手机抓包 通过Fiddler抓包工具,可以抓取手机的网络通信,但前提是手机和电脑处于同一局域网内(WI-FI或热点),然后进行以下设置:1.用Fiddler对Android应用进行抓包 2在Connections里设置允许连接远程计算机,确认后重新启动Fiddler 1.在命令提示符下输入ipconfig查看本机IP 2.打开Android设备的“设置...
2018-08-18 11:50:55
2567
原创 反爬以及解决思路
常见的反爬手段和解决思路明确反反爬的主要思路 反反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。很多时候,爬虫中携带的headers字段,cookie字段,url参数,post的参数很多,不清楚哪些有用,哪些没用的情况下,只能够...
2018-08-18 11:26:40
508
空空如也
flask sqlalchemy 查询优化 哪位大神帮忙
2018-11-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人