- 博客(12)
- 收藏
- 关注
原创 数据分析(二)
数据的存取 CSV文件 CSV(Comma-Separated Value,逗号分隔值) CSV是一种常见的文件格式,用来存储批量数据 缺点:CSV只能有效存储一维和二维数组 np.savetxt() np.loadtxt()只能有效存取一维和二维数组 写 np.savetxt(frame, array, fmt='%.18e', delimiter=None) •frame : 文件、字符串或产...
2020-03-06 17:11:56
343
原创 数据分析(一)
IPython 可以调用python核心解释器的交互式环境,可以显示图形图像,只是一个显示脚本,真正内核还是python 命令 ? 变量前或后增加?将显示一些通用信息包括函数对应的源代码 In&Out in表示用户输入指令,out表示输出,[ ]内表示启动后第多少条指令 %run 用于运行.py程序 注意:%run在一个空的命名空间执行% IPython的%魔术命令 常用命令 说...
2020-03-06 14:54:53
416
原创 爬虫笔记(八)--Selenium
Selenium 简介 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动化操作,不同是Selenium可以直接运行在浏览器上,它支持所有主流的浏览器。 Selenium可以根据我们的指令,让浏览器自动加载页面,获取需要的页面,甚至页面截屏,或者判断网站上某些动作是否发生。 Selenium自己不带浏览器,不支持浏览器的...
2020-03-05 09:10:40
268
原创 爬虫笔记(七)--分布式爬虫
分布式爬虫 分布 大需求的情况需要用到分布(千万,亿),分布指将大型任务中耗时的方面分配给多个进程或者终端(电脑)共同完成,比如scrapy的downloader和pipeline 问题:多个终端之间的通信,防止数据重复 scrapy分布式的可能性 多个终端使用同一个scheduler—>替换为数据库 mysql: 可以持久化,查询方便,但速度慢 redis:基于内存,可以持久化,速度快,...
2020-03-05 09:10:21
149
原创 爬虫笔记(五)--Scrapy
scrapy 用户需要写的只有spider模块和item pipelines模块 downloader模块,scheduler模块,engine模块已有实现 只经过简单的配置就可实现框架功能,但不用于测试,先用request再移植到scrapy中进行爬取 engine:控制所有模块间的数据流,根据条件触发事件 downloader:根据请求下载网页 scheduler:对所有的爬取请求进行调度...
2020-03-04 10:42:46
625
原创 爬虫笔记(四)--信息提取
信息提取方法 BeautifulSoup,lxml,re,XPath Selector,CSS Selector 正则表达式库 xpath css选择器 #@ 解析HTML页面信息标记与提取 Beautiful soup 把任何文档当成一锅汤并煲制 BeautifulSoup是解析,遍历,维护标签树的功能库 html,标签树,BeautifulSoup类等价 BeautifulSoup对...
2020-03-04 10:41:46
1785
原创 爬虫笔记(三)--信息标记
信息标记 标记后的信息可形成信息组织结构,增加了信息维度 标记后的信息可用于通信,存储或展示 标记的结构与信息一样具有重要价值 标记后的信息更利于程序理解和运用 主要有三种方法,XML,JSON,YAML JSON 键值对表示 "name":{ "newname":xx "oldname":xxx } json格式的处理 pyh...
2020-03-04 10:41:28
368
原创 爬虫笔记(二)--Request库
Requests高级请求库 get方法 import requests r = requests.get("http://www.baidu.com") #通过request.get构造一个Request对象,返回值为一个Response对象并赋值给r Response对象中包含了爬虫返回的内容 Response对象的属性 属性 说明 r.status _code HTTP返回码...
2020-03-04 10:41:10
394
原创 爬虫笔记(六)--反爬处理
身份伪装 告诉服务器是人(浏览器) User-Agent:声明身份 人的特点,从哪来 Request-Headers Refer 身份证(cookies) 用户信息,网站信息 加UA,refer,cookies 访问频率,访问数量–>拉黑 开小号 添加headers import requests url = "http://www.httpbin.org/headers" res = ...
2020-03-04 10:40:44
418
原创 《算法笔记》3.1小节——入门模拟->简单模拟
1906 Problem C 特殊乘法代码 代码 #include <stdio.h> #include <string.h> int main() { char a[100],b[100]; while(scanf("%s%s",&a,&b)!=-1) {int len1,len2; len1=strlen(a); ...
2020-02-19 16:17:22
231
原创 爬虫笔记(一)--爬虫基础
get import requests r = requests.get("http://www.baidu.com") #通过request.get构造一个Request对象,返回值为一个Response对象并赋值给r Response对象中包含了爬虫返回的内容 Response对象的属性 属性 说明 r.status _code HTTP返回码,200为正常,不为200表示失...
2020-02-17 17:07:04
358
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅