自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 数据分析(三)

图像 图像的RGB色彩模式 图像一般使用

2020-03-06 21:55:12 1318

原创 数据分析(二)

数据的存取 CSV文件 CSV(Comma-Separated Value,逗号分隔值) CSV是一种常见的文件格式,用来存储批量数据 缺点:CSV只能有效存储一维和二维数组 np.savetxt() np.loadtxt()只能有效存取一维和二维数组 写 np.savetxt(frame, array, fmt='%.18e', delimiter=None) •frame : 文件、字符串或产...

2020-03-06 17:11:56 343

原创 数据分析(一)

IPython 可以调用python核心解释器的交互式环境,可以显示图形图像,只是一个显示脚本,真正内核还是python 命令 ? 变量前或后增加?将显示一些通用信息包括函数对应的源代码 In&Out in表示用户输入指令,out表示输出,[ ]内表示启动后第多少条指令 %run 用于运行.py程序 注意:%run在一个空的命名空间执行% IPython的%魔术命令 常用命令 说...

2020-03-06 14:54:53 416

原创 爬虫笔记(八)--Selenium

Selenium 简介 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动化操作,不同是Selenium可以直接运行在浏览器上,它支持所有主流的浏览器。 Selenium可以根据我们的指令,让浏览器自动加载页面,获取需要的页面,甚至页面截屏,或者判断网站上某些动作是否发生。 Selenium自己不带浏览器,不支持浏览器的...

2020-03-05 09:10:40 268

原创 爬虫笔记(七)--分布式爬虫

分布式爬虫 分布 大需求的情况需要用到分布(千万,亿),分布指将大型任务中耗时的方面分配给多个进程或者终端(电脑)共同完成,比如scrapy的downloader和pipeline 问题:多个终端之间的通信,防止数据重复 scrapy分布式的可能性 多个终端使用同一个scheduler—>替换为数据库 mysql: 可以持久化,查询方便,但速度慢 redis:基于内存,可以持久化,速度快,...

2020-03-05 09:10:21 149

原创 爬虫笔记(五)--Scrapy

scrapy 用户需要写的只有spider模块和item pipelines模块 downloader模块,scheduler模块,engine模块已有实现 只经过简单的配置就可实现框架功能,但不用于测试,先用request再移植到scrapy中进行爬取 engine:控制所有模块间的数据流,根据条件触发事件 downloader:根据请求下载网页 scheduler:对所有的爬取请求进行调度...

2020-03-04 10:42:46 625

原创 爬虫笔记(四)--信息提取

信息提取方法 BeautifulSoup,lxml,re,XPath Selector,CSS Selector 正则表达式库 xpath css选择器 #@ 解析HTML页面信息标记与提取 Beautiful soup 把任何文档当成一锅汤并煲制 BeautifulSoup是解析,遍历,维护标签树的功能库 html,标签树,BeautifulSoup类等价 BeautifulSoup对...

2020-03-04 10:41:46 1785

原创 爬虫笔记(三)--信息标记

信息标记 标记后的信息可形成信息组织结构,增加了信息维度 标记后的信息可用于通信,存储或展示 标记的结构与信息一样具有重要价值 标记后的信息更利于程序理解和运用 主要有三种方法,XML,JSON,YAML JSON 键值对表示 "name":{ "newname":xx "oldname":xxx } json格式的处理 pyh...

2020-03-04 10:41:28 368

原创 爬虫笔记(二)--Request库

Requests高级请求库 get方法 import requests r = requests.get("http://www.baidu.com") #通过request.get构造一个Request对象,返回值为一个Response对象并赋值给r Response对象中包含了爬虫返回的内容 Response对象的属性 属性 说明 r.status _code HTTP返回码...

2020-03-04 10:41:10 394

原创 爬虫笔记(六)--反爬处理

身份伪装 告诉服务器是人(浏览器) User-Agent:声明身份 人的特点,从哪来 Request-Headers Refer 身份证(cookies) 用户信息,网站信息 加UA,refer,cookies 访问频率,访问数量–>拉黑 开小号 添加headers import requests url = "http://www.httpbin.org/headers" res = ...

2020-03-04 10:40:44 418

原创 《算法笔记》3.1小节——入门模拟->简单模拟

1906 Problem C 特殊乘法代码 代码 #include <stdio.h> #include <string.h> int main() { char a[100],b[100]; while(scanf("%s%s",&a,&b)!=-1) {int len1,len2; len1=strlen(a); ...

2020-02-19 16:17:22 231

原创 爬虫笔记(一)--爬虫基础

get import requests r = requests.get("http://www.baidu.com") #通过request.get构造一个Request对象,返回值为一个Response对象并赋值给r Response对象中包含了爬虫返回的内容 Response对象的属性 属性 说明 r.status _code HTTP返回码,200为正常,不为200表示失...

2020-02-17 17:07:04 358

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除