
爬虫与数据分析
文章平均质量分 98
Are you ready
人生苦短,我用python
展开
-
机器学习
机器学习基本概念什么是机器学习和深度学习名词解释样本集:一般就是一个表格数据 ,我们研究数据的集合,每一列就是样本的一条属性,每一行就是一个数据样本样本标签:我们要研究的数据指标, 可能是数据的一条属性训练集:从样本集中,拆分出来的一部分样本,样本个数多 8:2 9:1 7:3,用来训练算法模型的数据集合测试集:从样本集中,拆分出来的一部分样本,样本个数少 8:...原创 2019-08-29 10:59:06 · 2103 阅读 · 0 评论 -
机器学习
机器学习基本概念名词解释样本集:一般就是一个表格数据 ,我们研究数据的集合,每一列就是样本的一条属性,每一行就是一个数据样本样本标签:我们要研究的数据指标, 可能是数据的一条属性训练集:从样本集中,拆分出来的一部分样本,样本个数多 8:2 9:1 7:3,用来训练算法模型的数据集合测试集:从样本集中,拆分出来的一部分样本,样本个数少 8:2 9:1 7:3,用...原创 2019-08-28 20:42:17 · 2232 阅读 · 0 评论 -
scikit-learn 估计器的选择
基估计器的选择原创 2019-08-28 20:39:00 · 206 阅读 · 0 评论 -
Tensorflow的基本使用
基本使用安装:要仅为CPU安装当前版本:$ pip install tensorflow将GPU包用于 支持CUDA的GPU卡:$ pip install tensorflow-gpu使用 TensorFlow, 你必须明白 TensorFlow:使用图 (graph) 来表示计算任务.在被称之为 会话 (Session) 的上下文 (context) 中执行图.使用 t...原创 2019-08-15 22:05:37 · 282 阅读 · 0 评论 -
机器学习
机器学习基本概念名词解释样本集:一般就是一个表格数据 ,我们研究数据的集合,每一列就是样本的一条属性,每一行就是一个数据样本样本标签:我们要研究的数据指标, 可能是数据的一条属性训练集:从样本集中,拆分出来的一部分样本,样本个数多 8:2 9:1 7:3,用来训练算法模型的数据集合测试集:从样本集中,拆分出来的一部分样本,样本个数少 8:2 9:1 7:3,用...原创 2019-08-08 00:55:31 · 1893 阅读 · 0 评论 -
matplotlib基础
matplotlib基本用法一、Matplotlib基础知识1.绘制一条曲线图import matplotlib.pyplot as plt%matplotlib inlineimport numpy as npimport pandas as pdfrom pandas import Series,DataFrame# 1、可以使用多个plot函数(推荐),在一个图中绘制多个曲线...原创 2019-08-06 21:36:10 · 572 阅读 · 0 评论 -
Scipy简介
Scipy简介Scipy依赖于NumpyScipy包含的功能:最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等应用场景:Scipy是高端科学计算工具包,用于数学、科学、工程学等领域Scipy由一些特定功能的子模块组成:图片消噪处理scipy.fftpack模块用来计算快速傅里叶变换速度比传统傅里叶变换更快,是对之前算法的改进...原创 2019-08-04 00:37:01 · 40185 阅读 · 0 评论 -
交叉表和透视表
利用Python实现数据透视表和交叉表1、透视表 pivot table透视表(pivot table)是常见的数据汇总工具,它根据一个或多个键对数据进行聚合,根据行和列上的分组键将数据分配到矩形区域中。pandas中使用pivot_table方法创建透视表,pd.pivot_table(data,values=None,index=None,columns=None,aggfunc='me...原创 2019-08-02 21:11:00 · 768 阅读 · 0 评论 -
pandas的高级使用
pandas层次化索引导入三剑客包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame读取外部excel文件# header 设置为列表,表示第0、1两行同时作为多层级索引读取pd.read_excel('datas.x...原创 2019-08-01 22:40:34 · 1075 阅读 · 0 评论 -
pandas的基本使用
pandas的基本使用pandas三剑客# 财务部门import numpy as np# 业务部门import pandas as pd# UI部门import matplotlib.pyplot as plt# 导入两种数据类型from pandas import Series, DataFrameSeries数组一维数组:一组【有序的】,【数据类型相同】的集合...原创 2019-07-31 13:44:59 · 333 阅读 · 0 评论 -
numpy简单使用
ndarray、array、list的区别1.python中的数组用list和tuple等数据结构表示数组一维数组 List1 = [1, 2, 3]二维数组 Tuple1 = ([1, 2, 3], [4, 5, 6], [7, 8, 9])但是:列表是【动态指针数组】,它保存的是对象的指针,其元素可以是任意类型的对象。比如要保存上述的List1,需要3个指针和3个整数对象,浪...原创 2019-07-30 21:58:15 · 662 阅读 · 0 评论 -
jupyter notebooke 基本操作
jupyter notebooke 基本操作cell单元格的状态编辑状态 鼠标点击cell内部,就转换成可编辑状态选中状态下 按下Enter, 也可以切换到编辑状态选中状态 鼠标点击cell左侧,边框颜色变成蓝色,此时为选中状态编辑状态下 按下 ESC, 也可以切换到选中状态新增单元格选中状态下:b 在选中单元格的正下方,新增一个单元格cella 在选中单元格...转载 2019-07-30 13:38:59 · 2905 阅读 · 0 评论 -
scrapy框架的实现(重写)
import requestsfrom lxml import etreeimport threadingfrom time import sleepfrom urllib.parse import urlparsefrom queue import Queueimport redis# 建立一个redis链接rds = redis.StrictRedis(host="www.f...转载 2019-07-26 21:22:40 · 726 阅读 · 0 评论 -
分布式爬虫的部署(scrapy_redis)
理论基础:分布式爬虫的原理分布式数据库中有4个key:xxx:start_urls : 起始url列表,用于存放我们通过服务器脚本加入的起始urlxxx:requests : 用于存储爬虫过程中新产生的那些url对应的请求对象xxx:items : 用于存储抓到的数据xxx:dupefilter: 用于去重实际操作系统要求:一台性能较好Linux的主机,和...转载 2019-07-25 20:39:48 · 412 阅读 · 0 评论 -
scrapy的增量爬虫(未完待续。。。)
增量爬虫1、增量爬虫(crawlspider)1)创建增量式爬虫:scrapy genspider -t crawl xxx xxx.xx2)增量式爬虫介绍:在scrapy中有许多的爬虫模板(例如:crawl,Feed等模板),这些模板可以对basic爬虫进行功能的扩充),这些模板经过扩充以后可以更好的实现一些复杂功能,crawlspider是最常用的一种爬虫模板3)增量式爬虫...转载 2019-07-24 22:28:02 · 498 阅读 · 0 评论 -
scrapy如何GET和POST请求
post请求class FanyiSpider(scrapy.Spider): name = 'fanyi' allowed_domains = ['baidu.com'] # start_urls = ['https://fanyi.baidu.com/sug'] # 引擎调度起来以后首先会从start_urls中提取起始url然后发起get请求,现在把这个属性...转载 2019-07-23 22:05:06 · 2289 阅读 · 0 评论 -
greenlet实现协程
greenlet实现协程greenlet+switch机制来实现协程greenlet用于创建协程,switch用于进行协程之间的切换某个协程在执行的过程中可以随时的被其他协程通过switch函数来打断,转而去执行其他协程,当前协程的中断现场会被保留,一旦中断的协程再次获得cpu的执行权首先会恢复现场然后从中断处继续执行这种机制下的协程是同步,不能并发from greenlet import...转载 2019-07-22 22:11:03 · 257 阅读 · 0 评论 -
利用协程爬取某网站
爬取详情页import geventfrom gevent import monkeymonkey.patch_all()import requestsimport redisfrom queue import Queueimport json# 定义一个函数用于请求每一个id对应的详情页def request_detail(poiId_queue,comment_queue)...转载 2019-07-22 22:02:23 · 554 阅读 · 0 评论 -
Scrapy框架基础
Scrapy概念:是一个爬虫框架,提取结构性的数据。其可以应用在数据挖掘,信息处理等方面。提供了许多的爬虫的基类,帮我们更简便使用爬虫。基于Twisted安装首先安装依赖库Twistedpip install (依赖库的路径)依赖库:lxml,twistedpip install lxml在线安装twisted:pip install twistedpip install...转载 2019-07-22 21:57:06 · 284 阅读 · 0 评论 -
爬虫之滑动验证破解
滑动验证码编程思路封装一个函数进行登录创建一个driver对象找到输入框和密码框,将用户名和密码输入找到登录按钮破解滑动验证码(封装函数)关闭浏览器对象封装一个函数,用于破解滑动验证码计算滑动距离截取带缺口的图(封装函数)用js语句去掉缺口截取不带缺口的图把去掉的缺口补回来根据两张图片的缺口处的像素差异,来求出存在差异的第一个像素的x轴坐标,即为滑动距离(封...转载 2019-07-18 21:13:52 · 1812 阅读 · 1 评论 -
爬虫基础
验证码识别使用pytesseract工具验证码识别工具安装pip install pytesseractpip install pillowimport pytesseractfrom PIL import Image# 读取图片img = Image.open("./code/mbb5.png")# 将图片转成灰度图片img = img.convert("L")# im...转载 2019-07-17 22:15:25 · 760 阅读 · 0 评论 -
爬虫案例(xpath)
爬虫案例(某某二手房)步骤请求模块# 封装一个函数,用于将url处理成请求对象def request_by(url,city,page): page_url = url%(city,page) # 请求头 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit...转载 2019-07-16 21:27:00 · 1031 阅读 · 0 评论 -
python爬虫之lxml框架
lxmllxml这个框架用于对xml文件进行格式化(说明:html文件是一种特殊xml)安装:pip install lxmletree 全称是element tree这个工具用把一个html文件格式化成一个树形型结构,这个树形结构叫做节点树html测试页面<!DOCTYPE html><html lang="en"><head> <m...转载 2019-07-16 20:41:31 · 622 阅读 · 0 评论 -
爬虫基础
1、爬虫的概念 概念:(spider,网络蜘蛛)通过互联网上一个个的网络节点,进行数据的提取、整合以及存储分类:通用爬虫(了解) 主要用于搜索引擎(百度、Google ,搜狗等) 搜索引擎的工作原理: 核心部分:通过爬虫按照互联网的拓扑结构,进行批量的数据抓取,然后进行数据清洗与整合,然后按照一定的次序存入百度的数据库集群 检索部分:实质上就是一个web系统,给...转载 2019-07-15 22:02:06 · 534 阅读 · 0 评论