小xiao露-优快云博客

原创 scrapy爬虫基础

一、安装所需包1、首先安装scrapy包：pip install scrapy2、在windows系统下，还需安装pypiwin32这个包：pip install pypiwin32二、创建项目1、命令行操作进入指定盘：比如要进入D盘：在命令行输入： d: 或 D: 即可进入指定文件夹：cd+文件名查看指定文件夹下的子文件目录：cd+文件名+dir 在某文件下创建文件...

2019-02-23 21:31:27 406

原创在anaconda中新建环境，并在jupyter notebook添加kernel

1、创建环境：打开anaconda prompt上输入代码创建：比如创建一个python3.5的环境：conda create -n tensorflow python=3.5 （tensorflow这个表示环境的名称，可更改为其他的名称）2、激活当前创建的环境：activate tensorflow3、安装tensorflow：pip install tensorflow...

2019-02-23 17:47:18 6457 3

原创 GraphViz's executables not found报错解决方案

通过pip安装graphviz模块后，进行sklearn的决策树文档操作输出决策树模型结果时报错，报错内容为：GraphViz’s executables not found。通过了解得知：graphviz是属于一个独立的软件，需要到官网下载安装包解压，将bin的路径添加到环境变量。下载网址链接：https://graphviz.gitlab.io/_pages/Download/Down...

2019-02-23 11:47:04 29344 16

原创代理设置ProxyHandler处理器

在进行爬虫的时候，很多网站会检测某一段时间内同一个ip的访问次数，如果访问的次数异常多，就会禁止这个ip的访问，可以通过设置一些代理服务器，通过每隔一段时间换一个代理进行爬取。通过urllib中的ProxyHandler来设置代理服务器。常用的代理有：西刺免费代理IP：http://www.xicidaili.com/ 快代理：http://www.kuaidaili.com/ 代理云...

2018-12-08 14:28:34 534

原创正则表达式2

search()函数，在整个文本中查找匹配1、^(脱字号)：表示以……开始，如果在中括号表示取反操作text='hello'ret=re.match('^h',text)print(ret.group())>>h2、$:表示以……结束text='xxx@163.com'ret=re.search('\w+@163.com$',text)print(ret...

2018-11-01 22:36:09 179

原创正则表达式1

group()函数：group()函数可以将匹配到的字符串打印出来match()函数：match()函数只能从文本的开始部分匹配。1、匹配单个字符1.1、匹配某个字符串：text='hello'ret=re.match('he',text)print(ret.group())1.2、点（.）匹配任意字符，不能匹配换行符text = "ab"ret = r...

2018-10-30 23:46:32 217

原创 BeautifulSoup4库

1、BeautifulSoup4库介绍：和lxml一样，BeautifulSoup4也是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。2、BeautifulSoup4与lxml的区别：lxml只会局部遍历，而BeautifulSoup4是基于HTML DOM（Document Object Model）的，会载入整个文档，解析整个DOM树，因此时间和内...

2018-10-28 16:56:41 632

原创 lxml模块

1、lxml介绍lxml是一个HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML数据。2、lxml解析HTML代码：可以用来解析HTML代码，并且在解析HTML代码的时候，如果代码不规范，会自动进行补全。#导入包form lxml import etreetext='''<div> <ul> <li c...

2018-10-27 23:48:28 662

原创 XPath 语法

1、XPathxpath（XML Path Language）是一门在XML和HTML文档中差值信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。 2、XPath语法 2.1选取节点表达式描述示例结果 nodename 选取此节点的所有子节点 .xpath('bookstore') 选取bookstore下所有的子节...

2018-10-27 22:52:39 458 1

原创 requests库

1、安装和文档地址pip install requests中文文档：http://docs.python-requests.org/zh_CN/latest/index.htmlgithub地址：https://github.com/requests/requests2、发送get请求import requestsresponse=requests.get('http://...

2018-10-27 00:17:36 155

原创 urllib 网页爬虫

urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据1、urlopen函数：from urllib import requestresp=request.urlopen('http://www.baidu.com')text=resp.read()#读取网页代码text=resp.rea...

2018-10-25 23:49:12 509

原创统计基础之假设检验

原假设：，定义与备择假设完全相反的内容称为原假设。备择假设：，将试图建立的结果设为备择假设。第一类错误：当为真时，做出拒绝的结论第二类错误：当为真时，却接受了。1、总体均值的检验：已知下侧检验上侧检验双侧检验假设：u>= ：u< ：u<= ：u> ...

2018-08-23 23:30:13 1292

原创统计基础之区间估计

最近在学《商务与经济统计》基础知识，为进一步把所学的知识点理顺，通过写文章的形式进行总结，一方面加深对知识点的理解，另一方面提高自己的文字表述能力。一、总体总体常见的几种分布1、分布：又称卡方分布，是标准正态的平方和。2、t分布：是标准正态除以卡方比上其自由度的平方根。3、F分布：两个卡方比上各自自由度的比。4、Z分布：标准正态分布。二、总体均值区间估计：总体分布 ...

2018-08-23 00:19:03 1556

weixin_36407399的博客