jys0703-优快云博客

原创数据分析（三）

图像图像的RGB色彩模式图像一般使用

2020-03-06 21:55:12 1319

原创数据分析（二）

数据的存取CSV文件CSV（Comma-Separated Value,逗号分隔值）CSV是一种常见的文件格式，用来存储批量数据缺点：CSV只能有效存储一维和二维数组 np.savetxt() np.loadtxt()只能有效存取一维和二维数组写np.savetxt(frame, array, fmt='%.18e', delimiter=None)•frame : 文件、字符串或产...

2020-03-06 17:11:56 344

原创数据分析（一）

IPython可以调用python核心解释器的交互式环境，可以显示图形图像，只是一个显示脚本，真正内核还是python命令?变量前或后增加?将显示一些通用信息包括函数对应的源代码In&Outin表示用户输入指令，out表示输出，[ ]内表示启动后第多少条指令%run用于运行.py程序注意：%run在一个空的命名空间执行%IPython的%魔术命令常用命令说...

2020-03-06 14:54:53 426

原创爬虫笔记（八）--Selenium

Selenium简介Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动化操作，不同是Selenium可以直接运行在浏览器上，它支持所有主流的浏览器。Selenium可以根据我们的指令，让浏览器自动加载页面，获取需要的页面，甚至页面截屏，或者判断网站上某些动作是否发生。Selenium自己不带浏览器，不支持浏览器的...

2020-03-05 09:10:40 271

原创爬虫笔记（七）--分布式爬虫

分布式爬虫分布大需求的情况需要用到分布(千万，亿)，分布指将大型任务中耗时的方面分配给多个进程或者终端（电脑）共同完成，比如scrapy的downloader和pipeline问题：多个终端之间的通信，防止数据重复scrapy分布式的可能性多个终端使用同一个scheduler—>替换为数据库mysql: 可以持久化，查询方便，但速度慢redis:基于内存，可以持久化，速度快，...

2020-03-05 09:10:21 150

原创爬虫笔记（五）--Scrapy

scrapy用户需要写的只有spider模块和item pipelines模块downloader模块，scheduler模块，engine模块已有实现只经过简单的配置就可实现框架功能，但不用于测试，先用request再移植到scrapy中进行爬取engine：控制所有模块间的数据流，根据条件触发事件downloader：根据请求下载网页scheduler：对所有的爬取请求进行调度...

2020-03-04 10:42:46 627

原创爬虫笔记（四）--信息提取

信息提取方法BeautifulSoup，lxml，re，XPath Selector，CSS Selector正则表达式库xpathcss选择器#@ 解析HTML页面信息标记与提取Beautiful soup把任何文档当成一锅汤并煲制BeautifulSoup是解析，遍历，维护标签树的功能库html,标签树,BeautifulSoup类等价BeautifulSoup对...

2020-03-04 10:41:46 1786

原创爬虫笔记（三）--信息标记

信息标记标记后的信息可形成信息组织结构，增加了信息维度标记后的信息可用于通信，存储或展示标记的结构与信息一样具有重要价值标记后的信息更利于程序理解和运用主要有三种方法，XML，JSON，YAMLJSON键值对表示 "name":{ "newname":xx "oldname":xxx }json格式的处理pyh...

2020-03-04 10:41:28 369

原创爬虫笔记（二）--Request库

Requests高级请求库get方法import requestsr = requests.get("http://www.baidu.com")#通过request.get构造一个Request对象，返回值为一个Response对象并赋值给rResponse对象中包含了爬虫返回的内容Response对象的属性属性说明r.status _codeHTTP返回码...

2020-03-04 10:41:10 395

原创爬虫笔记（六）--反爬处理

身份伪装告诉服务器是人(浏览器)User-Agent:声明身份人的特点，从哪来Request-HeadersRefer身份证（cookies）用户信息，网站信息加UA，refer，cookies访问频率，访问数量–>拉黑开小号添加headersimport requestsurl = "http://www.httpbin.org/headers"res = ...

2020-03-04 10:40:44 419

原创《算法笔记》3.1小节——入门模拟->简单模拟

1906 Problem C 特殊乘法代码代码#include <stdio.h>#include <string.h>int main(){ char a[100],b[100]; while(scanf("%s%s",&a,&b)!=-1) {int len1,len2; len1=strlen(a); ...

2020-02-19 16:17:22 231

原创爬虫笔记（一）--爬虫基础

getimport requestsr = requests.get("http://www.baidu.com")#通过request.get构造一个Request对象，返回值为一个Response对象并赋值给rResponse对象中包含了爬虫返回的内容Response对象的属性属性说明r.status _codeHTTP返回码，200为正常，不为200表示失...

2020-02-17 17:07:04 358

jys0703的博客